Skip to content

Konuşma Modelleri

Vox, yerel konuşma tanıma için OpenAI'ın Whisper modellerini kullanır. Bu kılavuz mevcut modelleri ve ihtiyaçlarınız için doğru olanı nasıl seçeceğinizi açıklar.

Konuşma Modellerini Anlama

Konuşma Modelleri Ekranı

Konuşma modellerine Ayarlar → Konuşma bölümünden erişin.

Whisper Modelleri Nedir?

Whisper, OpenAI'ın açık kaynaklı otomatik konuşma tanıma (ASR) sistemidir. Vox bu modelleri cihazınızda yerel olarak çalıştırır ve şunları garantiler:

  • Gizlilik: Ses asla cihazınızdan ayrılmaz
  • Çevrimdışı kapasite: İnternet bağlantısı olmadan çalışır
  • Hız: Ağ gecikmesi yoktur
  • Maliyet: Dakika başına ücret yoktur

Gizlilik Önce

Tüm konuşma tanıma cihazınızda gerçekleşir. Ses verileriniz asla harici sunuculara gönderilmez (AI Geliştirmeyi etkinleştirmediğiniz sürece).

Kullanılabilir Modeller

Vox, hız ve doğruluk arasında farklı dengeler kuran beş Whisper modeli çeşidi sunar:

En Hızlı

Boyut: ~75MB Hız: En düşük gecikme (<50ms) Doğruluk: Net konuşma için iyi İdeal durumlar: Hızlı komutlar, kısa ifadeler, test

En küçük ve hızlı model. Hızı doğruluğun önünde tutan veya sınırlı disk alanına sahip kullanıcılar için idealdir.

Hızlı

Boyut: ~150MB Hız: Çok düşük gecikme (~50ms) Doğruluk: En Hızlı'dan daha iyi İdeal durumlar: Net konuşmayla günlük kullanım

Hız ve kalite arasında iyi bir denge. Çoğu gündelik transkripsiyon ihtiyacı için uygundur.

Dengeli

Boyut: ~480MB Hız: Önerilen (~480MB) Doğruluk: İyi genel amaçlı doğruluk İdeal durumlar: Çoğu kullanıcı, genel transkripsiyon

Çoğu kullanıcı için önerilen. Aşırı kaynak gerektirmeden günlük kullanım için mükemmel doğruluk sağlar.

Doğru

Boyut: ~1,5GB Hız: Daha iyi doğruluk, daha kabul edilebilir gecikme (~1,5GB) Doğruluk: Karmaşık konuşma için yüksek doğruluk İdeal durumlar: Profesyonel transkripsiyon, teknik içerik, aksanlar

Zorlu ses koşulları, teknik terminoloji ve çeşitli aksanlar için daha yüksek doğruluk.

En İyi

Boyut: ~3GB Hız: En yüksek kalite, önemli CPU kullanımı (~3GB) Doğruluk: Maksimum doğruluk İdeal durumlar: Kritik transkripsiyon, çok dilli, gürültülü ortamlar

En büyük ve en doğru model. Transkripsiyon kalitesi birincil öncelik olduğunda ve sistem kaynakları buna izin verdiğinde kullanın.

Performans Notu

Eşdeğer özelliklere sahip Windows PC'lerdeki performans karşılaştırılabilirdir.

Modelleri İndirme

İlk Kurulum

İndirmeden Önce Modeller

Vox'u ilk kez yüklediğinizde hiçbir model indirilmemiştir. Vox'u kullanmak için en az bir model indirmeniz gerekir.

Bir modeli indirmek için:

  1. Ayarlar → Konuşma bölümüne gidin
  2. Seçtiğiniz modelin yanındaki İndir'e tıklayın
  3. İndirmenin tamamlanmasını bekleyin
  4. Hazır olduğunda düğme "İndirildi" olarak değişir

İndirilen Modeller

İlk Model Önerisi

En iyi kalite ve performans dengesi için Dengeli ile başlayın. Daha sonra her zaman ek modeller indirebilirsiniz.

Birden Fazla Model İndirme

Birden fazla model indirebilir ve aralarında geçiş yapabilirsiniz:

  1. Farklı kullanım durumları için farklı modeller indirin
  2. Yerel Modeli Test Et düğmesiyle her modeli test edin
  3. Vox şu anda seçili modeli kullanır (onay işaretiyle işaretli)
  4. Yeniden indirmeye gerek kalmadan istediğiniz zaman modeller arasında geçiş yapın

İndirme Gereksinimleri

  • İnternet bağlantısı: İlk indirme için gerekli
  • Disk alanı: Seçtiğiniz model için yeterli alan olduğundan emin olun
  • Süre: İndirmeler model boyutuna ve bağlantı hızına bağlı olarak genellikle 1-10 dakika sürer

Sistem Gereksinimleri

Vox, işletim sisteminize bağlı olarak farklı sistem gereksinimlerine sahiptir:

macOS

GereksinimMinimumÖnerilen
İşletim Sistemi SürümümacOS 15 (Sequoia)macOS 15+ (Sequoia veya sonrası)
İşlemciApple Silicon (M1) veya IntelApple Silicon (M2 veya daha yeni)
RAM4 GB8 GB veya daha fazla
Depolama500 MB - 4 GB4 GB boş alan
İzinlerMikrofon + Erişilebilirlik-

Apple Silicon Performansı

Vox, optimize edilmiş sinir motoru desteği sayesinde Apple Silicon (M1/M2/M3) üzerinde Intel Mac'lere kıyasla önemli ölçüde daha hızlı çalışır.

Windows

GereksinimMinimumÖnerilen
İşletim Sistemi SürümüWindows 10 (64-bit)Windows 11
İşlemcix64 işlemciModern çok çekirdekli işlemci
RAM4 GB8 GB veya daha fazla
Depolama500 MB - 4 GB4 GB boş alan
İzinlerMikrofon erişimi-

Windows Performansı

Performans işlemciye bağlı olarak değişir. Modern işlemciler (Intel 10. nesil+, AMD Ryzen 3000+) daha iyi transkripsiyon hızı sağlar.

Yakında

Linux, iOS ve Android desteği gelecek sürümler için planlanmıştır. Yol haritasını görün →

Modelleri Test Etme

Yerel Modeli Test Et

Bir modeli indirdikten sonra doğru çalıştığını doğrulayın:

  1. Yerel Modeli Test Et'e tıklayın
  2. İstendiğinde bir test ifadesi söyleyin
  3. Transkripsiyon sonucunu inceleyin
  4. Başarı mesajını arayın: "Yeah. This is just a test. I laughing"

Test şunları doğrular:

  • Model düzgün şekilde indirilmiş ve yüklenmiştir
  • Ses ardışık düzeni çalışıyordur
  • Transkripsiyon doğruluğu ihtiyaçlarınızı karşılar

Gerçek İçerikle Test Edin

Doğruluğu değerlendirmek için gerçek kullanım durumunuza benzer ifadelerle (teknik terimler, isimler vb.) test edin.

Doğru Modeli Seçme

Karar Matrisi

ModelBoyutHızDoğrulukİdeal Durumlar
En Hızlı75MB⚡⚡⚡⚡⚡⭐⭐⭐Test, basit komutlar
Hızlı150MB⚡⚡⚡⚡⭐⭐⭐⭐Günlük kullanım, net konuşma
Dengeli480MB⚡⚡⚡⭐⭐⭐⭐Çoğu kullanıcı için önerilen
Doğru1,5GB⚡⚡⭐⭐⭐⭐⭐Profesyonel çalışma, teknik içerik
En İyi3GB⭐⭐⭐⭐⭐Kritik transkripsiyon, karmaşık ses

Kullanım Durumunuzu Göz Önünde Bulundurun

En Hızlı veya Hızlı'yı seçin şu durumlarda:

  • Anında transkripsiyon sonuçlarına ihtiyaç duyuyorsanız
  • Kısa, basit ifadeler transkribe ediyorsanız
  • Sınırlı disk alanınız varsa
  • Sessiz ortamlarda net konuşuyorsanız

Dengeli'yi seçin şu durumlarda:

  • İyi bir genel deneyim istiyorsanız
  • Hem kısa hem de uzun içerik transkribe ediyorsanız
  • Çok fazla hız feda etmeden güvenilir doğruluğa ihtiyaç duyuyorsanız
  • Hangi modeli seçeceğinizden emin değilseniz (buradan başlayın!)

Doğru'yu seçin şu durumlarda:

  • Teknik terminolojiyle çalışıyorsanız
  • Aksanla veya birden fazla dilde konuşuyorsanız
  • Arka plan gürültüsü olan ortamlarda transkripsiyon yapıyorsanız
  • Profesyonel çalışma için yüksek doğruluğa ihtiyaç duyuyorsanız

En İyi'yi seçin şu durumlarda:

  • Maksimum transkripsiyon doğruluğu gerektiriyorsanız
  • Karmaşık, çok dilli içerikle çalışıyorsanız
  • Kritik belgeler veya hukuki içerik transkribe ediyorsanız
  • Bol kaynaklı güçlü bir bilgisayarınız varsa

Model Performans Gereksinimleri

Tüm modeller Vox çalıştıran herhangi bir bilgisayarda çalışır ancak performans farklılık gösterir:

En Hızlı, Hızlı, Dengeli için:

  • 2018 veya sonraki herhangi bir Mac / Herhangi bir modern Windows PC
  • Minimum 8GB RAM
  • Standart performans beklentileri

Doğru için:

  • 2020 veya sonrası Mac / 8 GB+ RAM'li Windows PC önerilir
  • 16GB RAM önerilir
  • Eski bilgisayarlarda daha yavaş olabilir

En İyi için:

  • Apple Silicon Mac veya 16 GB+ RAM'li modern Windows PC
  • 16GB+ RAM önerilir
  • Transkripsiyonlarda fark edilir işlem süresi beklenir

Apple Silicon Avantajı

Apple Silicon (M1, M2, M3 çipleri) ile Mac'ler, Neural Engine sayesinde Whisper modellerini Intel Mac'lere kıyasla önemli ölçüde daha hızlı çalıştırır.

Model Performansı

İşleme Süresi Örnekleri

10 saniyelik bir kayıt için yaklaşık transkripsiyon süreleri:

ModelIntel Mac (2019)M1/M2 MacM3 Mac
En Hızlı0,5s0,2s0,1s
Hızlı1s0,5s0,3s
Dengeli2s1s0,5s
Doğru5s2,5s1,5s
En İyi10s4s2s

Süreler yaklaşıktır ve ses karmaşıklığına göre değişir

Doğruluk Karşılaştırması

Teknik terimlerle transkripsiyon kalitesi örneği:

Orijinal konuşma: "Initialize the TypeScript interface with async await handlers"

ModelTranskripsiyon Kalitesi
En Hızlı"Initialize the typescript interface with a sync away handlers"
Hızlı"Initialize the TypeScript interface with a sync await handlers"
Dengeli"Initialize the TypeScript interface with async await handlers" ✓
Doğru"Initialize the TypeScript interface with async await handlers" ✓
En İyi"Initialize the TypeScript interface with async await handlers" ✓

Yapay Zeka Geliştirmesi

Daha da iyi doğruluk için, büyük dil modelleriyle transkripsiyonları son işlemden geçirmek amacıyla AI Geliştirmesini etkinleştirin.

Ses Saklama

Ses Saklama Ayarı

Vox'un diskte kaç son ses kaydı saklayacağını yapılandırın:

Varsayılan: 10 kayıt

Neden ses saklanır:

  • Doğruluğu doğrulamak için transkripsiyonları gözden geçirme
  • Aynı ses üzerinde farklı modelleri test etme
  • Sözlüğünüze kaçırılan kelimeleri ekleme
  • Transkripsiyon sorunlarını ayıklama

Saklamayı ayarlama:

  • Geçmiş kayıtları sık sık gözden geçiriyorsanız Artırın
  • Disk alanından tasarruf etmek için Azaltın
  • Ses saklamayı tamamen devre dışı bırakmak için 0 olarak ayarlayın

Gizlilik Notu

Ses kayıtları Vox'un uygulama klasöründe yerel olarak saklanır. AI Geliştirme özelliklerini açıkça etkinleştirmedikçe asla gönderilmezler.

Model Değiştirme

Vox'un kullandığı modeli istediğiniz zaman değiştirebilirsiniz:

  1. Ayarlar → Konuşma bölümüne gidin
  2. Farklı bir indirilen modele tıklayın
  3. Onay işareti olan model etkindir
  4. Bir sonraki kaydınız yeni modeli kullanacaktır

Yeniden başlatma gerekmez - değişiklik hemen etkili olur.

Disk Alanını Yönetme

Model Depolamasını Kontrol Etme

Modeller şurada saklanır:

~/Library/Application Support/Vox/models/

Modelleri Kaldırma

Disk alanını boşaltmak için:

  1. Ayarlar → Konuşma bölümüne gidin
  2. Artık ihtiyaç duymadığınız modelleri bulun
  3. Modelin yanındaki çöp kutusu simgesine tıklayın
  4. Silmeyi onaylayın

Modelleri istediğiniz zaman ceza olmadan yeniden indirebilirsiniz.

Depolama İpuçları

  • Yalnızca aktif olarak kullandığınız modelleri tutun
  • Dengeli model, tek model seçimi için iyi bir tercihtir
  • Daha büyük modelleri yalnızca gerektiğinde indirin
  • Ses saklama minimum alan kaplar (yapılandırılabilir)

Sorun Giderme

Model İndirme Başarısız Oldu

Çözüm:

  1. İnternet bağlantınızı kontrol edin
  2. Yeterli disk alanı olduğundan emin olun
  3. Önce daha küçük bir model indirmeyi deneyin
  4. Vox'u yeniden başlatın ve tekrar deneyin

Yerel Model Testi Başarısız Oluyor

Çözüm:

  1. Mikrofon izninin verildiğini doğrulayın
  2. Mikrofon seçimi için Sistem Tercihleri → Ses → Giriş'i kontrol edin
  3. Farklı bir model deneyin
  4. Vox'u yeniden başlatın

Zayıf Transkripsiyon Kalitesi

Çözümler:

  1. Daha büyük bir modele geçin: Doğru veya En İyi'yi deneyin
  2. Ses kalitesini kontrol edin: Net konuşun, arka plan gürültüsünü azaltın
  3. Özel kelimeler ekleyin: Sözlük özelliğini kullanın
  4. AI Geliştirmesini Etkinleştirin: Daha iyi sonuçlar için AI ile son işleme yapın

Modelin İşlemesi Çok Uzun Sürüyor

Çözümler:

  1. Daha küçük bir modele geçin: Hızlı veya Dengeli'yi deneyin
  2. Kayıtları kısaltın: Uzun dikte işlemlerini daha küçük parçalara bölün
  3. Diğer uygulamaları kapatın: CPU kaynaklarını boşaltın
  4. Sistem aktivitesini kontrol edin: bilgisayarınızın yüksek yük altında olmadığından emin olun

Model Çok Fazla CPU/Bellek Kullanıyor

Çözümler:

  1. Daha küçük bir modele geçin (En Hızlı veya Hızlı)
  2. Arka plan uygulamalarını kapatın
  3. Kaynakları boşaltmak için ses saklamayı azaltın
  4. Daha büyük modellere ihtiyaç duyuyorsanız donanım yükseltmeyi düşünün

Gelişmiş Konular

Model Mimarisi

Vox, şunlar için optimize edilmiş Whisper modellerinin nicelleştirilmiş sürümlerini kullanır:

  • Tüm platformlarda optimize edilmiş çıkarım
  • Azaltılmış bellek ayak izi
  • Orijinal modellerle karşılaştırıldığında korunan doğruluk
  • Apple Silicon Neural Engine hızlandırması

Dil Desteği

Tüm Whisper modelleri şunlar dahil birden fazla dili destekler:

  • İngilizce, İspanyolca, Fransızca, Almanca, İtalyanca, Portekizce
  • Çince, Japonca, Korece
  • Ve 90+ diğer diller

Ayarlar → Genel → Diller bölümünde konuşma dillerini yapılandırın.

Özel Modeller

Şu anda Vox yalnızca beş yerleşik Whisper çeşidini destekler. Özel model desteği gelecekteki sürümlerde eklenebilir.

Sonraki Adımlar

Açık kaynak topluluğu ve ana katkıda bulunanlar tarafından 💜 ile inşa edildi