Skip to content

Modèles Vocaux

Vox utilise les modèles Whisper d'OpenAI pour la reconnaissance vocale locale. Ce guide explique les modèles disponibles et comment choisir celui qui correspond à vos besoins.

Comprendre les Modèles Vocaux

Écran des Modèles Vocaux

Accédez aux modèles vocaux depuis Paramètres → Voix.

Qu'est-ce que les Modèles Whisper ?

Whisper est le système de reconnaissance automatique de la parole (ASR) open-source d'OpenAI. Vox exécute ces modèles localement sur votre appareil, garantissant :

  • Confidentialité : L'audio ne quitte jamais votre appareil
  • Capacité hors ligne : Fonctionne sans connexion internet
  • Rapidité : Pas de latence réseau
  • Coût : Pas de frais à la minute

Confidentialité en Premier

Toute la reconnaissance vocale se produit sur votre appareil. Vos données vocales ne sont jamais envoyées à des serveurs externes (sauf si vous activez l'Amélioration par IA).

Modèles Disponibles

Vox propose cinq variantes du modèle Whisper, chacune équilibrant différemment vitesse et précision :

Le Plus Rapide

Taille : ~75MB Vitesse : Latence minimale (<50ms) Précision : Bonne pour une parole claire Idéal pour : Commandes rapides, phrases courtes, tests

Le modèle le plus petit et le plus rapide. Idéal pour les utilisateurs qui privilégient la vitesse à la précision ou disposent d'un espace disque limité.

Rapide

Taille : ~150MB Vitesse : Très faible latence (~50ms) Précision : Meilleure que Le Plus Rapide Idéal pour : Usage quotidien avec une parole claire

Un bon compromis entre vitesse et qualité. Convient à la plupart des besoins de transcription occasionnelle.

Équilibré

Taille : ~480MB Vitesse : Recommandé (~480MB) Précision : Bonne précision polyvalente Idéal pour : La plupart des utilisateurs, transcription générale

Recommandé pour la plupart des utilisateurs. Fournit une excellente précision pour un usage quotidien sans nécessiter de ressources excessives.

Précis

Taille : ~1,5GB Vitesse : Meilleure précision, latence plus correcte (~1,5GB) Précision : Haute précision pour une parole complexe Idéal pour : Transcription professionnelle, contenu technique, accents

Précision supérieure pour des conditions audio difficiles, la terminologie technique et divers accents.

Meilleur

Taille : ~3GB Vitesse : Qualité maximale, CPU significatif (~3GB) Précision : Précision maximale Idéal pour : Transcription critique, multilingue, environnements bruyants

Le modèle le plus grand et le plus précis. À utiliser lorsque la qualité de transcription est primordiale et que les ressources système le permettent.

Télécharger les Modèles

Configuration Initiale

Modèles Avant Téléchargement

Lorsque vous installez Vox pour la première fois, aucun modèle n'est téléchargé. Vous devez télécharger au moins un modèle pour utiliser Vox.

Pour télécharger un modèle :

  1. Accédez à Paramètres → Voix
  2. Cliquez sur Télécharger à côté du modèle choisi
  3. Attendez que le téléchargement se termine
  4. Le bouton devient "Téléchargé" lorsqu'il est prêt

Modèles Téléchargés

Recommandation Premier Modèle

Commencez avec Équilibré pour le meilleur équilibre entre qualité et performance. Vous pouvez toujours télécharger des modèles supplémentaires plus tard.

Télécharger Plusieurs Modèles

Vous pouvez télécharger plusieurs modèles et basculer entre eux :

  1. Téléchargez différents modèles pour différents cas d'usage
  2. Testez chaque modèle avec le bouton Tester le Modèle Local
  3. Vox utilise le modèle actuellement sélectionné (marqué d'une coche)
  4. Basculez entre les modèles à tout moment sans re-télécharger

Exigences de Téléchargement

  • Connexion internet : Requise pour le téléchargement initial
  • Espace disque : Assurez-vous d'avoir suffisamment d'espace pour le modèle choisi
  • Temps : Les téléchargements prennent généralement 1 à 10 minutes selon la taille du modèle et la vitesse de connexion

Configuration Requise

Vox a différentes configurations requises selon votre système d'exploitation :

macOS

ExigenceMinimumRecommandé
Version du SEmacOS 15 (Sequoia)macOS 15+ (Sequoia ou ultérieur)
ProcesseurApple Silicon (M1) ou IntelApple Silicon (M2 ou plus récent)
RAM4 Go8 Go ou plus
Stockage500 Mo - 4 Go4 Go d'espace libre
PermissionsMicrophone + Accessibilité-

Performance sur Apple Silicon

Vox fonctionne beaucoup plus rapidement sur Apple Silicon (M1/M2/M3) par rapport aux Macs Intel grâce à un support optimisé du moteur neuronal.

Windows

ExigenceMinimumRecommandé
Version du SEWindows 10 (64-bit)Windows 11
ProcesseurProcesseur x64Processeur multicœur moderne
RAM4 Go8 Go ou plus
Stockage500 Mo - 4 Go4 Go d'espace libre
PermissionsAccès au microphone-

Performance sous Windows

Les performances varient selon le processeur. Les processeurs modernes (Intel 10e gen+, AMD Ryzen 3000+) offrent une meilleure vitesse de transcription.

Bientôt Disponible

Le support pour Linux, iOS et Android est prévu pour les versions futures. Voir la feuille de route →

Tester les Modèles

Tester le Modèle Local

Après avoir téléchargé un modèle, vérifiez qu'il fonctionne correctement :

  1. Cliquez sur Tester le Modèle Local
  2. Dites une phrase de test lorsque vous y êtes invité
  3. Examinez le résultat de la transcription
  4. Cherchez le message de succès : "Yeah. This is just a test. I laughing"

Le test vérifie :

  • Le modèle est correctement téléchargé et installé
  • Le pipeline audio fonctionne
  • La précision de la transcription répond à vos besoins

Testez avec du Contenu Réel

Testez avec des phrases similaires à votre cas d'usage réel (termes techniques, noms, etc.) pour évaluer la précision.

Choisir le Bon Modèle

Matrice de Décision

ModèleTailleVitessePrécisionIdéal Pour
Le Plus Rapide75MB⚡⚡⚡⚡⚡⭐⭐⭐Tests, commandes simples
Rapide150MB⚡⚡⚡⚡⭐⭐⭐⭐Usage quotidien, parole claire
Équilibré480MB⚡⚡⚡⭐⭐⭐⭐Recommandé pour la plupart
Précis1,5GB⚡⚡⭐⭐⭐⭐⭐Travail professionnel, contenu technique
Meilleur3GB⭐⭐⭐⭐⭐Transcription critique, audio complexe

Considérez Votre Cas d'Usage

Choisissez Le Plus Rapide ou Rapide si vous :

  • Avez besoin de résultats de transcription instantanés
  • Transcrivez des phrases courtes et simples
  • Avez un espace disque limité
  • Parlez clairement dans des environnements calmes

Choisissez Équilibré si vous :

  • Voulez une bonne expérience globale
  • Transcrivez du contenu court et long
  • Avez besoin d'une précision fiable sans trop sacrifier la vitesse
  • N'êtes pas sûr quel modèle choisir (commencez ici !)

Choisissez Précis si vous :

  • Travaillez avec de la terminologie technique
  • Parlez avec un accent ou en plusieurs langues
  • Transcrivez dans des environnements avec du bruit de fond
  • Avez besoin d'une haute précision pour un travail professionnel

Choisissez Meilleur si vous :

  • Nécessitez une précision de transcription maximale
  • Travaillez avec du contenu complexe et multilingue
  • Transcrivez des documents critiques ou du contenu juridique
  • Avez un ordinateur puissant avec beaucoup de ressources

Configuration Système Requise

Tous les modèles fonctionnent sur tout ordinateur qui exécute Vox, mais les performances varient :

Pour Le Plus Rapide, Rapide, Équilibré :

  • Tout Mac de 2018 ou ultérieur / Tout PC Windows moderne
  • 8Go de RAM minimum
  • Performances standard attendues

Pour Précis :

  • Mac de 2020 ou ultérieur / PC Windows avec 8 Go+ de RAM recommandé
  • 16Go de RAM recommandé
  • Peut être plus lent sur les ordinateurs anciens

Pour Meilleur :

  • Mac Apple Silicon ou PC Windows moderne avec 16 Go+ de RAM
  • 16Go+ de RAM recommandé
  • Attendez un temps de traitement notable sur les transcriptions

Avantage Apple Silicon

Les Macs avec Apple Silicon (puces M1, M2, M3) exécutent les modèles Whisper significativement plus vite que les Macs Intel grâce à leur Neural Engine.

Performance des Modèles

Exemples de Temps de Traitement

Temps de transcription approximatifs pour un enregistrement de 10 secondes :

ModèleIntel Mac (2019)M1/M2 MacM3 Mac
Le Plus Rapide0,5s0,2s0,1s
Rapide1s0,5s0,3s
Équilibré2s1s0,5s
Précis5s2,5s1,5s
Meilleur10s4s2s

Les temps sont approximatifs et varient selon la complexité audio

Les performances sur des PC Windows avec des spécifications équivalentes sont comparables.

Comparaison de Précision

Exemple de qualité de transcription avec des termes techniques :

Parole originale : "Initialize the TypeScript interface with async await handlers"

ModèleQualité de Transcription
Le Plus Rapide"Initialize the typescript interface with a sync away handlers"
Rapide"Initialize the TypeScript interface with a sync await handlers"
Équilibré"Initialize the TypeScript interface with async await handlers" ✓
Précis"Initialize the TypeScript interface with async await handlers" ✓
Meilleur"Initialize the TypeScript interface with async await handlers" ✓

Amélioration par IA

Pour une précision encore meilleure, activez l'Amélioration par IA pour post-traiter les transcriptions avec des grands modèles de langage.

Rétention Audio

Paramètre de Rétention Audio

Configurez combien d'enregistrements audio récents Vox conserve sur disque :

Par défaut : 10 enregistrements

Pourquoi conserver l'audio :

  • Réviser les transcriptions pour vérifier la précision
  • Tester différents modèles sur le même audio
  • Ajouter des mots manqués à votre dictionnaire
  • Déboguer les problèmes de transcription

Ajuster la rétention :

  • Augmenter si vous révisez fréquemment les enregistrements passés
  • Diminuer pour économiser de l'espace disque
  • Définir à 0 pour désactiver entièrement la rétention audio

Note sur la Confidentialité

Les enregistrements audio sont stockés localement dans le dossier de l'application Vox. Ils ne sont jamais envoyés sauf si vous activez explicitement les fonctionnalités d'Amélioration par IA.

Changer de Modèle

Vous pouvez changer quel modèle Vox utilise à tout moment :

  1. Accédez à Paramètres → Voix
  2. Cliquez sur un autre modèle téléchargé
  3. Le modèle avec une coche est actif
  4. Votre prochain enregistrement utilisera le nouveau modèle

Pas de redémarrage nécessaire - le changement prend effet immédiatement.

Gérer l'Espace Disque

Vérifier le Stockage des Modèles

Les modèles sont stockés dans :

~/Library/Application Support/Vox/models/

Supprimer des Modèles

Pour libérer de l'espace disque :

  1. Accédez à Paramètres → Voix
  2. Trouvez les modèles dont vous n'avez plus besoin
  3. Cliquez sur l'icône corbeille à côté du modèle
  4. Confirmez la suppression

Vous pouvez re-télécharger les modèles à tout moment sans pénalité.

Conseils de Stockage

  • Gardez seulement les modèles que vous utilisez activement
  • Le modèle Équilibré est un bon choix de modèle unique
  • Téléchargez des modèles plus grands seulement quand nécessaire
  • La rétention audio prend un espace minimal (configurable)

Dépannage

Téléchargement du Modèle Échoué

Solution :

  1. Vérifiez votre connexion internet
  2. Assurez-vous d'avoir suffisamment d'espace disque
  3. Essayez de télécharger un modèle plus petit d'abord
  4. Redémarrez Vox et réessayez

Le Test du Modèle Local Échoue

Solution :

  1. Vérifiez que l'autorisation microphone est accordée
  2. Vérifiez Préférences Système → Son → Entrée pour la sélection du microphone
  3. Essayez un modèle différent
  4. Redémarrez Vox

Mauvaise Qualité de Transcription

Solutions :

  1. Passer à un modèle plus grand : Essayez Précis ou Meilleur
  2. Vérifier la qualité audio : Parlez clairement, réduisez le bruit de fond
  3. Ajouter des mots personnalisés : Utilisez la fonction Dictionnaire
  4. Activer l'Amélioration par IA : Post-traitez avec IA pour de meilleurs résultats

Le Modèle Prend Trop Longtemps à Traiter

Solutions :

  1. Passer à un modèle plus petit : Essayez Rapide ou Équilibré
  2. Raccourcir les enregistrements : Divisez les longues dictées en morceaux plus petits
  3. Fermer d'autres applications : Libérez des ressources CPU
  4. Vérifier l'activité système : Assurez-vous que votre ordinateur n'est pas sous forte charge

Modèle Utilisant Trop de CPU/Mémoire

Solutions :

  1. Passez à un modèle plus petit (Le Plus Rapide ou Rapide)
  2. Fermez les applications en arrière-plan
  3. Réduisez la rétention audio pour libérer des ressources
  4. Envisagez de mettre à niveau votre matériel si vous avez besoin de modèles plus grands

Sujets Avancés

Architecture des Modèles

Vox utilise des versions quantifiées des modèles Whisper optimisées pour :

  • Inférence optimisée sur toutes les plateformes
  • Une empreinte mémoire réduite
  • Une précision maintenue par rapport aux modèles originaux
  • L'accélération du Neural Engine d'Apple Silicon

Support des Langues

Tous les modèles Whisper prennent en charge plusieurs langues dont :

  • Anglais, Espagnol, Français, Allemand, Italien, Portugais
  • Chinois, Japonais, Coréen
  • Et 90+ autres langues

Configurez les langues de parole dans Paramètres → Général → Langues.

Modèles Personnalisés

Actuellement, Vox ne prend en charge que les cinq variantes Whisper intégrées. Le support de modèles personnalisés pourrait être ajouté dans les versions futures.

Prochaines Étapes

Construit avec 💜 par la communauté open-source et les principaux contributeurs