Konuşma Modelleri

Vox, yerel konuşma tanıma için OpenAI'ın Whisper modellerini kullanır. Bu kılavuz mevcut modelleri ve ihtiyaçlarınız için doğru olanı nasıl seçeceğinizi açıklar.

Konuşma Modellerini Anlama

Konuşma Modelleri Ekranı

Konuşma modellerine Ayarlar → Konuşma bölümünden erişin.

Whisper Modelleri Nedir?

Whisper, OpenAI'ın açık kaynaklı otomatik konuşma tanıma (ASR) sistemidir. Vox bu modelleri cihazınızda yerel olarak çalıştırır ve şunları garantiler:

Gizlilik: Ses asla cihazınızdan ayrılmaz
Çevrimdışı kapasite: İnternet bağlantısı olmadan çalışır
Hız: Ağ gecikmesi yoktur
Maliyet: Dakika başına ücret yoktur

Gizlilik Önce

Tüm konuşma tanıma cihazınızda gerçekleşir. Ses verileriniz asla harici sunuculara gönderilmez (AI Geliştirmeyi etkinleştirmediğiniz sürece).

Kullanılabilir Modeller

Vox, hız ve doğruluk arasında farklı dengeler kuran beş Whisper modeli çeşidi sunar:

En Hızlı

Boyut: ~75MB Hız: En düşük gecikme (<50ms) Doğruluk: Net konuşma için iyi İdeal durumlar: Hızlı komutlar, kısa ifadeler, test

En küçük ve hızlı model. Hızı doğruluğun önünde tutan veya sınırlı disk alanına sahip kullanıcılar için idealdir.

Hızlı

Boyut: ~150MB Hız: Çok düşük gecikme (~50ms) Doğruluk: En Hızlı'dan daha iyi İdeal durumlar: Net konuşmayla günlük kullanım

Hız ve kalite arasında iyi bir denge. Çoğu gündelik transkripsiyon ihtiyacı için uygundur.

Dengeli

Boyut: ~480MB Hız: Önerilen (~480MB) Doğruluk: İyi genel amaçlı doğruluk İdeal durumlar: Çoğu kullanıcı, genel transkripsiyon

Çoğu kullanıcı için önerilen. Aşırı kaynak gerektirmeden günlük kullanım için mükemmel doğruluk sağlar.

Doğru

Boyut: ~1,5GB Hız: Daha iyi doğruluk, daha kabul edilebilir gecikme (~1,5GB) Doğruluk: Karmaşık konuşma için yüksek doğruluk İdeal durumlar: Profesyonel transkripsiyon, teknik içerik, aksanlar

Zorlu ses koşulları, teknik terminoloji ve çeşitli aksanlar için daha yüksek doğruluk.

En İyi

Boyut: ~3GB Hız: En yüksek kalite, önemli CPU kullanımı (~3GB) Doğruluk: Maksimum doğruluk İdeal durumlar: Kritik transkripsiyon, çok dilli, gürültülü ortamlar

En büyük ve en doğru model. Transkripsiyon kalitesi birincil öncelik olduğunda ve sistem kaynakları buna izin verdiğinde kullanın.

Performans Notu

Eşdeğer özelliklere sahip Windows PC'lerdeki performans karşılaştırılabilirdir.

Modelleri İndirme

İlk Kurulum

İndirmeden Önce Modeller

Vox'u ilk kez yüklediğinizde hiçbir model indirilmemiştir. Vox'u kullanmak için en az bir model indirmeniz gerekir.

Bir modeli indirmek için:

Ayarlar → Konuşma bölümüne gidin
Seçtiğiniz modelin yanındaki İndir'e tıklayın
İndirmenin tamamlanmasını bekleyin
Hazır olduğunda düğme "İndirildi" olarak değişir

İndirilen Modeller

İlk Model Önerisi

En iyi kalite ve performans dengesi için Dengeli ile başlayın. Daha sonra her zaman ek modeller indirebilirsiniz.

Birden Fazla Model İndirme

Birden fazla model indirebilir ve aralarında geçiş yapabilirsiniz:

Farklı kullanım durumları için farklı modeller indirin
Yerel Modeli Test Et düğmesiyle her modeli test edin
Vox şu anda seçili modeli kullanır (onay işaretiyle işaretli)
Yeniden indirmeye gerek kalmadan istediğiniz zaman modeller arasında geçiş yapın

İndirme Gereksinimleri

İnternet bağlantısı: İlk indirme için gerekli
Disk alanı: Seçtiğiniz model için yeterli alan olduğundan emin olun
Süre: İndirmeler model boyutuna ve bağlantı hızına bağlı olarak genellikle 1-10 dakika sürer

Sistem Gereksinimleri

Vox, işletim sisteminize bağlı olarak farklı sistem gereksinimlerine sahiptir:

macOS

Gereksinim	Minimum	Önerilen
İşletim Sistemi Sürümü	macOS 15 (Sequoia)	macOS 15+ (Sequoia veya sonrası)
İşlemci	Apple Silicon (M1) veya Intel	Apple Silicon (M2 veya daha yeni)
RAM	4 GB	8 GB veya daha fazla
Depolama	500 MB - 4 GB	4 GB boş alan
İzinler	Mikrofon + Erişilebilirlik	-

Apple Silicon Performansı

Vox, optimize edilmiş sinir motoru desteği sayesinde Apple Silicon (M1/M2/M3) üzerinde Intel Mac'lere kıyasla önemli ölçüde daha hızlı çalışır.

Windows

Gereksinim	Minimum	Önerilen
İşletim Sistemi Sürümü	Windows 10 (64-bit)	Windows 11
İşlemci	x64 işlemci	Modern çok çekirdekli işlemci
RAM	4 GB	8 GB veya daha fazla
Depolama	500 MB - 4 GB	4 GB boş alan
İzinler	Mikrofon erişimi	-

Windows Performansı

Performans işlemciye bağlı olarak değişir. Modern işlemciler (Intel 10. nesil+, AMD Ryzen 3000+) daha iyi transkripsiyon hızı sağlar.

Yakında

Linux, iOS ve Android desteği gelecek sürümler için planlanmıştır. Yol haritasını görün →

Modelleri Test Etme

Yerel Modeli Test Et

Bir modeli indirdikten sonra doğru çalıştığını doğrulayın:

Yerel Modeli Test Et'e tıklayın
İstendiğinde bir test ifadesi söyleyin
Transkripsiyon sonucunu inceleyin
Başarı mesajını arayın: "Yeah. This is just a test. I laughing"

Test şunları doğrular:

Model düzgün şekilde indirilmiş ve yüklenmiştir
Ses ardışık düzeni çalışıyordur
Transkripsiyon doğruluğu ihtiyaçlarınızı karşılar

Gerçek İçerikle Test Edin

Doğruluğu değerlendirmek için gerçek kullanım durumunuza benzer ifadelerle (teknik terimler, isimler vb.) test edin.

Doğru Modeli Seçme

Karar Matrisi

Model	Boyut	Hız	Doğruluk	İdeal Durumlar
En Hızlı	75MB	⚡⚡⚡⚡⚡	⭐⭐⭐	Test, basit komutlar
Hızlı	150MB	⚡⚡⚡⚡	⭐⭐⭐⭐	Günlük kullanım, net konuşma
Dengeli	480MB	⚡⚡⚡	⭐⭐⭐⭐	Çoğu kullanıcı için önerilen
Doğru	1,5GB	⚡⚡	⭐⭐⭐⭐⭐	Profesyonel çalışma, teknik içerik
En İyi	3GB	⚡	⭐⭐⭐⭐⭐	Kritik transkripsiyon, karmaşık ses

Kullanım Durumunuzu Göz Önünde Bulundurun

En Hızlı veya Hızlı'yı seçin şu durumlarda:

Anında transkripsiyon sonuçlarına ihtiyaç duyuyorsanız
Kısa, basit ifadeler transkribe ediyorsanız
Sınırlı disk alanınız varsa
Sessiz ortamlarda net konuşuyorsanız

Dengeli'yi seçin şu durumlarda:

İyi bir genel deneyim istiyorsanız
Hem kısa hem de uzun içerik transkribe ediyorsanız
Çok fazla hız feda etmeden güvenilir doğruluğa ihtiyaç duyuyorsanız
Hangi modeli seçeceğinizden emin değilseniz (buradan başlayın!)

Doğru'yu seçin şu durumlarda:

Teknik terminolojiyle çalışıyorsanız
Aksanla veya birden fazla dilde konuşuyorsanız
Arka plan gürültüsü olan ortamlarda transkripsiyon yapıyorsanız
Profesyonel çalışma için yüksek doğruluğa ihtiyaç duyuyorsanız

En İyi'yi seçin şu durumlarda:

Maksimum transkripsiyon doğruluğu gerektiriyorsanız
Karmaşık, çok dilli içerikle çalışıyorsanız
Kritik belgeler veya hukuki içerik transkribe ediyorsanız
Bol kaynaklı güçlü bir bilgisayarınız varsa

Model Performans Gereksinimleri

Tüm modeller Vox çalıştıran herhangi bir bilgisayarda çalışır ancak performans farklılık gösterir:

En Hızlı, Hızlı, Dengeli için:

2018 veya sonraki herhangi bir Mac / Herhangi bir modern Windows PC
Minimum 8GB RAM
Standart performans beklentileri

Doğru için:

2020 veya sonrası Mac / 8 GB+ RAM'li Windows PC önerilir
16GB RAM önerilir
Eski bilgisayarlarda daha yavaş olabilir

En İyi için:

Apple Silicon Mac veya 16 GB+ RAM'li modern Windows PC
16GB+ RAM önerilir
Transkripsiyonlarda fark edilir işlem süresi beklenir

Apple Silicon Avantajı

Apple Silicon (M1, M2, M3 çipleri) ile Mac'ler, Neural Engine sayesinde Whisper modellerini Intel Mac'lere kıyasla önemli ölçüde daha hızlı çalıştırır.

Model Performansı

İşleme Süresi Örnekleri

10 saniyelik bir kayıt için yaklaşık transkripsiyon süreleri:

Model	Intel Mac (2019)	M1/M2 Mac	M3 Mac
En Hızlı	0,5s	0,2s	0,1s
Hızlı	1s	0,5s	0,3s
Dengeli	2s	1s	0,5s
Doğru	5s	2,5s	1,5s
En İyi	10s	4s	2s

Süreler yaklaşıktır ve ses karmaşıklığına göre değişir

Doğruluk Karşılaştırması

Teknik terimlerle transkripsiyon kalitesi örneği:

Orijinal konuşma: "Initialize the TypeScript interface with async await handlers"

Model	Transkripsiyon Kalitesi
En Hızlı	"Initialize the typescript interface with a sync away handlers"
Hızlı	"Initialize the TypeScript interface with a sync await handlers"
Dengeli	"Initialize the TypeScript interface with async await handlers" ✓
Doğru	"Initialize the TypeScript interface with async await handlers" ✓
En İyi	"Initialize the TypeScript interface with async await handlers" ✓

Yapay Zeka Geliştirmesi

Daha da iyi doğruluk için, büyük dil modelleriyle transkripsiyonları son işlemden geçirmek amacıyla AI Geliştirmesini etkinleştirin.

Ses Saklama

Ses Saklama Ayarı

Vox'un diskte kaç son ses kaydı saklayacağını yapılandırın:

Varsayılan: 10 kayıt

Neden ses saklanır:

Doğruluğu doğrulamak için transkripsiyonları gözden geçirme
Aynı ses üzerinde farklı modelleri test etme
Sözlüğünüze kaçırılan kelimeleri ekleme
Transkripsiyon sorunlarını ayıklama

Saklamayı ayarlama:

Geçmiş kayıtları sık sık gözden geçiriyorsanız Artırın
Disk alanından tasarruf etmek için Azaltın
Ses saklamayı tamamen devre dışı bırakmak için 0 olarak ayarlayın

Gizlilik Notu

Ses kayıtları Vox'un uygulama klasöründe yerel olarak saklanır. AI Geliştirme özelliklerini açıkça etkinleştirmedikçe asla gönderilmezler.

Model Değiştirme

Vox'un kullandığı modeli istediğiniz zaman değiştirebilirsiniz:

Ayarlar → Konuşma bölümüne gidin
Farklı bir indirilen modele tıklayın
Onay işareti olan model etkindir
Bir sonraki kaydınız yeni modeli kullanacaktır

Yeniden başlatma gerekmez - değişiklik hemen etkili olur.

Disk Alanını Yönetme

Model Depolamasını Kontrol Etme

Modeller şurada saklanır:

~/Library/Application Support/Vox/models/

Modelleri Kaldırma

Disk alanını boşaltmak için:

Ayarlar → Konuşma bölümüne gidin
Artık ihtiyaç duymadığınız modelleri bulun
Modelin yanındaki çöp kutusu simgesine tıklayın
Silmeyi onaylayın

Modelleri istediğiniz zaman ceza olmadan yeniden indirebilirsiniz.

Depolama İpuçları

Yalnızca aktif olarak kullandığınız modelleri tutun
Dengeli model, tek model seçimi için iyi bir tercihtir
Daha büyük modelleri yalnızca gerektiğinde indirin
Ses saklama minimum alan kaplar (yapılandırılabilir)

Sorun Giderme

Model İndirme Başarısız Oldu

Çözüm:

İnternet bağlantınızı kontrol edin
Yeterli disk alanı olduğundan emin olun
Önce daha küçük bir model indirmeyi deneyin
Vox'u yeniden başlatın ve tekrar deneyin

Yerel Model Testi Başarısız Oluyor

Çözüm:

Mikrofon izninin verildiğini doğrulayın
Mikrofon seçimi için Sistem Tercihleri → Ses → Giriş'i kontrol edin
Farklı bir model deneyin
Vox'u yeniden başlatın

Zayıf Transkripsiyon Kalitesi

Çözümler:

Daha büyük bir modele geçin: Doğru veya En İyi'yi deneyin
Ses kalitesini kontrol edin: Net konuşun, arka plan gürültüsünü azaltın
Özel kelimeler ekleyin: Sözlük özelliğini kullanın
AI Geliştirmesini Etkinleştirin: Daha iyi sonuçlar için AI ile son işleme yapın

Modelin İşlemesi Çok Uzun Sürüyor

Çözümler:

Daha küçük bir modele geçin: Hızlı veya Dengeli'yi deneyin
Kayıtları kısaltın: Uzun dikte işlemlerini daha küçük parçalara bölün
Diğer uygulamaları kapatın: CPU kaynaklarını boşaltın
Sistem aktivitesini kontrol edin: bilgisayarınızın yüksek yük altında olmadığından emin olun

Model Çok Fazla CPU/Bellek Kullanıyor

Çözümler:

Daha küçük bir modele geçin (En Hızlı veya Hızlı)
Arka plan uygulamalarını kapatın
Kaynakları boşaltmak için ses saklamayı azaltın
Daha büyük modellere ihtiyaç duyuyorsanız donanım yükseltmeyi düşünün

Gelişmiş Konular

Model Mimarisi

Vox, şunlar için optimize edilmiş Whisper modellerinin nicelleştirilmiş sürümlerini kullanır:

Tüm platformlarda optimize edilmiş çıkarım
Azaltılmış bellek ayak izi
Orijinal modellerle karşılaştırıldığında korunan doğruluk
Apple Silicon Neural Engine hızlandırması

Dil Desteği

Tüm Whisper modelleri şunlar dahil birden fazla dili destekler:

İngilizce, İspanyolca, Fransızca, Almanca, İtalyanca, Portekizce
Çince, Japonca, Korece
Ve 90+ diğer diller

Ayarlar → Genel → Diller bölümünde konuşma dillerini yapılandırın.

Özel Modeller

Şu anda Vox yalnızca beş yerleşik Whisper çeşidini destekler. Özel model desteği gelecekteki sürümlerde eklenebilir.

Sonraki Adımlar

Daha iyi transkripsiyon kalitesi için AI Geliştirmesini Etkinleştirin
Teknik terimler için doğruluğu artırmak amacıyla özel kelimeler ekleyin
Kolay kayıt için kısayolları yapılandırın
Daha iyi kayıt geri bildirimi için HUD ayarlarını düzenleyin

Konuşma Modelleri ​