VoxDrop - La dictée vocale ultra-rapide qui tourne en local sur Mac

Par : Korben

9 février 2026 à 07:00

La dictée vocale, y'a plein d'outils pour ça. Sauf que la plupart envoient votre voix dans le cloud pour la transcrire, et surtout... c'est lent. Chez Google, chez OpenAI, chez Apple... entre le moment où vous parlez et celui où le texte s'affiche, y'a toujours cette latence qui casse tout. Et ça fait des mois que ça me gonflait, surtout en bossant sur mon Mac Studio M4 et mon MacBook Air M2 qui sont quand même censés être des bêtes de course.

Du coup je me suis codé VoxDrop au départ rien que pour moi. Une app macOS qui transforme votre voix en texte, et avec laquelle TOUT se passe en local sur votre machine. Zéro cloud, zéro donnée qui fuite, et surtout c'est rapide. Vous appuyez sur un raccourci (⌥ + Espace par défaut), vous parlez, vous relâchez, et hop, le texte apparaît directement là où se trouve votre curseur. Pas de fenêtre à ouvrir, pas de copier-coller. L'app est super légère et reste discrète en tâche de fond sans bouffer votre RAM.

L'interface de VoxDrop - sobre et efficace ( Source )

Côté moteurs de transcription, y'en a 7 au choix. J'ai voulu ratisser large en mettant des modèles américains, français et chinois. Parakeet de NVIDIA (600 Mo) est le modèle par défaut. Il est super rapide, c'est mon préféré. J'ai mis aussi Whisper avec ses variantes Small, Medium, Turbo et Large v3 qui couvre tous les cas. Y'a aussi Voxtral Mini de chez Mistral, made in France, et Qwen3-ASR le modèle chinois.

Les 7 moteurs de transcription au choix ( Source )

Alors pourquoi sur architecture Silicon ? Hé bien déjà parce que c'est ce que j'utilise au quotidien et aussi parce que les puces Apple Silicon (M1, M2, M3, M4) ont un avantage énorme pour l'IA locale : la mémoire unifiée. En gros, le CPU et le GPU partagent la même RAM. Un modèle chargé en mémoire est donc directement accessible au GPU Metal pour les calculs, sans copie de données. C'est pas magique non plus hein, si votre modèle fait 3 Go et que vous avez 8 Go de RAM, ça va ramer. Mais sur un MacBook Air M2, un modèle de 400 Mo tourne en temps réel sans broncher.

Et VoxDrop ne fait pas QUE de la transcription. Y'a aussi du post-traitement local avec une traduction dans 13 langues mais aussi une reformulation (mode pro, décontracté, concis, structuré...), le tout via le modèle de langage embarqué GemmaTranslate. Et vous avez 5 raccourcis clavier indépendants, chacun avec sa propre config. Un pour dicter, un pour traduire en direct, un pour reformuler ce que vous avez sélectionné...etc. Perso, au quotidien, ceux qui l'utilisent ne peuvent s'en passer. Et moi non plus ! Sauf si vous tapez plus vite que vous ne parlez, mais bon, ça m'étonnerait ^^.

Maintenant, pourquoi c'est pas sur l'App Store ?

Parce que VoxDrop est réservé à mes abonnés Patreon . Vous me soutenez pour la veille techno et la vulgarisation, et en retour j'ai envie de vous filer des outils concrets que j'utilise moi-même tous les jours. Pas de commission, pas d'intermédiaire. Juste un truc développé pour les gens qui me suivent.

J'espère d'ailleurs que ce sera la première d'une série d'apps comme ça. En tout cas, je ne crois pas avoir vu ce modèle de licence ailleurs. J'ai même développé un petit framework exprès pour ça, que je compte bien réutiliser.

Voilà, un GROS merci à tous ceux qui ont bêta-testé l'app pour moi, vos retours ont été très précieux !

Et si vous êtes déjà sur Patreon , VoxDrop est dispo ici !

FUTO Voice Input - L'appli de dictée vocale qui garde tout sur votre téléphone

Korben

Par : Korben

21 décembre 2025 à 08:00

Je sais pas vous, mais moi dès que j'ai un truc à écrire sur mon smartphone, je le dicte. Et que je sois sous Android ou soit iOS, je sais très bien que chaque mot que je prononce part directement sur les serveurs de Google ou Apple. Pourquoi j'ai trouvé FUTO Voice Input , intéressant parce que lui, garde tout sur votre téléphone...

C'est une appli Android qui utilise le modèle Whisper d'OpenAI pour faire de la reconnaissance vocale vraiment précise et ça tourne nickel sur un smartphone moderne. Trois tailles de modèle sont dispo : tiny, base, et small. La base suffira dans 90% des cas, mais vous pouvez basculer sur la small qui est un peu plus grosse, si vous avez un accent à couper au couteau ou si vous parlez dans le métro.

FUTO Voice Input supporte également 16 langues dont le français, l'anglais, l'allemand, l'espagnol, le japonais et plein d'autres et l'appli s'intègre directement comme clavier de saisie vocale Android, du coup elle fonctionne avec n'importe quelle application. Vous pouvez donc l'utiliser avec des claviers comme AnySoftKeyboard ou Unexpected Keyboard . Par contre, oubliez Gboard ou le clavier Samsung qui ont leur propre système verrouillé.

Le projet vient de FUTO, une organisation fondée par Eron Wolf (ex-investisseur de WhatsApp) et Louis Rossmann, le YouTubeur américain connu pour son combat pour le droit à la réparation, y bosse comme directeur de la com. Donc niveau éthique, je pense que c'est OK.

L'appli est dispo sur le Play Store, sur F-Droid, ou en APK direct d'environ 70 Mo. Y'a une version gratuite et une version payante sous forme de licence unique (pas d'abonnement, ouf) et le code source est ouvert et disponible sur GitLab.

Voilà, si vous en avez marre que vos paroles soient analysées par des serveurs à l'autre bout de la planète, FUTO Voice Input c'est une très bonne option !

Merci à PARADOXE_ pour l'info !

Vue normale