Vue lecture

Il y a de nouveaux articles disponibles, cliquez pour rafraîchir la page.

VoxDrop - La dictée vocale ultra-rapide qui tourne en local sur Mac

La dictée vocale, y'a plein d'outils pour ça. Sauf que la plupart envoient votre voix dans le cloud pour la transcrire, et surtout... c'est lent. Chez Google, chez OpenAI, chez Apple... entre le moment où vous parlez et celui où le texte s'affiche, y'a toujours cette latence qui casse tout. Et ça fait des mois que ça me gonflait, surtout en bossant sur mon Mac Studio M4 et mon MacBook Air M2 qui sont quand même censés être des bêtes de course.

Du coup je me suis codé VoxDrop au départ rien que pour moi. Une app macOS qui transforme votre voix en texte, et avec laquelle TOUT se passe en local sur votre machine. Zéro cloud, zéro donnée qui fuite, et surtout c'est rapide. Vous appuyez sur un raccourci (⌥ + Espace par défaut), vous parlez, vous relâchez, et hop, le texte apparaît directement là où se trouve votre curseur. Pas de fenêtre à ouvrir, pas de copier-coller. L'app est super légère et reste discrète en tâche de fond sans bouffer votre RAM.

L'interface de VoxDrop - sobre et efficace ( Source )

Côté moteurs de transcription, y'en a 7 au choix. J'ai voulu ratisser large en mettant des modèles américains, français et chinois. Parakeet de NVIDIA (600 Mo) est le modèle par défaut. Il est super rapide, c'est mon préféré. J'ai mis aussi Whisper avec ses variantes Small, Medium, Turbo et Large v3 qui couvre tous les cas. Y'a aussi Voxtral Mini de chez Mistral, made in France, et Qwen3-ASR le modèle chinois.

Les 7 moteurs de transcription au choix ( Source )

Alors pourquoi sur architecture Silicon ? Hé bien déjà parce que c'est ce que j'utilise au quotidien et aussi parce que les puces Apple Silicon (M1, M2, M3, M4) ont un avantage énorme pour l'IA locale : la mémoire unifiée. En gros, le CPU et le GPU partagent la même RAM. Un modèle chargé en mémoire est donc directement accessible au GPU Metal pour les calculs, sans copie de données. C'est pas magique non plus hein, si votre modèle fait 3 Go et que vous avez 8 Go de RAM, ça va ramer. Mais sur un MacBook Air M2, un modèle de 400 Mo tourne en temps réel sans broncher.

Et VoxDrop ne fait pas QUE de la transcription. Y'a aussi du post-traitement local avec une traduction dans 13 langues mais aussi une reformulation (mode pro, décontracté, concis, structuré...), le tout via le modèle de langage embarqué GemmaTranslate. Et vous avez 5 raccourcis clavier indépendants, chacun avec sa propre config. Un pour dicter, un pour traduire en direct, un pour reformuler ce que vous avez sélectionné...etc. Perso, au quotidien, ceux qui l'utilisent ne peuvent s'en passer. Et moi non plus ! Sauf si vous tapez plus vite que vous ne parlez, mais bon, ça m'étonnerait ^^.

Maintenant, pourquoi c'est pas sur l'App Store ?

Parce que VoxDrop est réservé à mes abonnés Patreon . Vous me soutenez pour la veille techno et la vulgarisation, et en retour j'ai envie de vous filer des outils concrets que j'utilise moi-même tous les jours. Pas de commission, pas d'intermédiaire. Juste un truc développé pour les gens qui me suivent.

J'espère d'ailleurs que ce sera la première d'une série d'apps comme ça. En tout cas, je ne crois pas avoir vu ce modèle de licence ailleurs. J'ai même développé un petit framework exprès pour ça, que je compte bien réutiliser.

Voilà, un GROS merci à tous ceux qui ont bêta-testé l'app pour moi, vos retours ont été très précieux !

Et si vous êtes déjà sur Patreon , VoxDrop est dispo ici !

FUTO Voice Input - L'appli de dictée vocale qui garde tout sur votre téléphone

Je sais pas vous, mais moi dès que j'ai un truc à écrire sur mon smartphone, je le dicte. Et que je sois sous Android ou soit iOS, je sais très bien que chaque mot que je prononce part directement sur les serveurs de Google ou Apple. Pourquoi j'ai trouvé FUTO Voice Input , intéressant parce que lui, garde tout sur votre téléphone...

C'est une appli Android qui utilise le modèle Whisper d'OpenAI pour faire de la reconnaissance vocale vraiment précise et ça tourne nickel sur un smartphone moderne. Trois tailles de modèle sont dispo : tiny, base, et small. La base suffira dans 90% des cas, mais vous pouvez basculer sur la small qui est un peu plus grosse, si vous avez un accent à couper au couteau ou si vous parlez dans le métro.

FUTO Voice Input supporte également 16 langues dont le français, l'anglais, l'allemand, l'espagnol, le japonais et plein d'autres et l'appli s'intègre directement comme clavier de saisie vocale Android, du coup elle fonctionne avec n'importe quelle application. Vous pouvez donc l'utiliser avec des claviers comme AnySoftKeyboard ou Unexpected Keyboard . Par contre, oubliez Gboard ou le clavier Samsung qui ont leur propre système verrouillé.

Le projet vient de FUTO, une organisation fondée par Eron Wolf (ex-investisseur de WhatsApp) et Louis Rossmann, le YouTubeur américain connu pour son combat pour le droit à la réparation, y bosse comme directeur de la com. Donc niveau éthique, je pense que c'est OK.

L'appli est dispo sur le Play Store, sur F-Droid, ou en APK direct d'environ 70 Mo. Y'a une version gratuite et une version payante sous forme de licence unique (pas d'abonnement, ouf) et le code source est ouvert et disponible sur GitLab.

Voilà, si vous en avez marre que vos paroles soient analysées par des serveurs à l'autre bout de la planète, FUTO Voice Input c'est une très bonne option !

Merci à PARADOXE_ pour l'info !

Handy - Un outil de reconnaissance vocale incroyable (et open source)

Je suis dégoûté parce que je viens de payer un abonnement pour un logiciel qui fait exactement ça, sauf que bah là, Handy , c’est gratuit. L’idée derrière ce logiciel, c’est un outil de speech to text qui fonctionne uniquement en local. Pas d’abonnement, tout est gratuit, et pas de cloud… il faut juste configurer un raccourci clavier. Et ensuite vous parlez et le texte apparaît comme par magie.

A la base, l’idée de cet outil est venue d’un accident. CJ se casse le doigt et il est plâtré pendant six semaines. Du coup il lui est impossible de taper normalement. Il cherche alors des outils de transcription vocale.

Par exemple, Dragon NaturallySpeaking, mais bon, 100 balles, ça fait chier. Google Docs aussi propose ce genre de fonctionnalités, mais uniquement en ligne. Et ça envoie tout dans le cloud, donc bonjour à confidentialité. Quant à Windows Speech Recognition, c’est bugué et assez limité. Bref, toutes les alternatives qu’il a trouvées étaient soit payantes, soit nécessité une connexion permanente vers des serveurs tiers.

Alors CJ a fait ce que font les devs quand un problème les agace. Non pas aller sur Reddit pour dire de la merde random sur moi, mais plutôt coder une solution qui fonctionne super bien !

Et au lieu de la garder pour lui ou de la rendre payante lui il a décidé de tout mettre en open source avec une licence MIT.

Et ce que vous êtes en train de lire précisément maintenant, et bien je suis en train de le dicter. Et ça marche dans les emails, les formulaires web, les éditeurs de texte, peu importe. Et comme je vous le disais, toute la transcription se fait localement sur votre machine. Et tout ça grâce à quoi ? Et bien grâce à Whisper d’OpenAI, dont je vous ai déjà parlé beaucoup de fois.

Handy est codé en Rust pour la performance et la sécurité et surtout cross plateforme, c’est-à-dire qu’il marche ou Linux, macOS et Windows. Et au niveau de la config, il y a quelques options comme le choix de la langue ou le mode d’enregistrement avec le raccourci clavier, soit vous faites du push to talk, soit vous faites une écoute en continu.

Ce truc est génial aussi bien pour l’accessibilité que pour la reconnaissance vocale en elle-même qui est plutôt utile dans la vie de tous les jours. D’ailleurs, il y a plusieurs modèles IA disponibles, comme tous les modèles Whisper, mais aussi un modèle que je ne connaissais pas, qui s’appelle Parakeet et qui franchement fonctionne très bien. C’est celui que j’utilise actuellement.

Testez si ce truc fonctionne bien sur votre vieux PC mais moi en tout cas sur mon Mac de dernière génération c’est encore plus rapide que ce que j’avais avec un modèle Whisper sur mon outil payant.

Voilà, si vous cherchiez un outil de reconnaissance vocale, vous pouvez vous arrêter là parce que vous venez de trouver. Et non pas parce qu’il est parfait, mais parce que comme c’est open source, vous pouvez vous-même le rendre parfait pour vos usages (Le code est sur GitHub ).

Merci à Lilian pour le partage de ce projet absolument génial !

Article dictée intégralement à l’aide de Handy (et corrigé manuellement pour les quelques erreurs de transcription)

❌