OpenAI vous entend chuchoter | Hackaday

OpenAI vous entend chuchoter | Hackaday
OpenAI vous entend chuchoter | Hackaday

Si vous souhaitez essayer la reconnaissance vocale de haute qualité sans rien acheter, bonne chance. Bien sûr, vous pouvez emprunter la reconnaissance vocale sur votre téléphone ou contraindre certains assistants virtuels sur un Raspberry Pi à gérer le traitement pour vous, mais ceux-ci ne sont pas bons pour les travaux majeurs que vous ne voulez pas être liés à une Source fermée. la solution. OpenAI a introduit Whisper, qui, selon eux, est un réseau neuronal open Source qui “se rapproche de la robustesse et de la précision au niveau humain sur la reconnaissance vocale en anglais”. Il semble également fonctionner sur au moins certaines autres langues.

Si vous essayez les démonstrations, vous verrez que parler vite ou avec un joli accent ne semble pas affecter les résultats. Le message mentionne qu’il a été formé sur 680 000 heures de données supervisées. Si vous parliez autant à une IA, cela vous prendrait 77 ans sans dormir !

En interne, la parole est découpée en bouchées de 30 secondes qui alimentent un spectrogramme. Les encodeurs traitent le spectrogramme et les décodeurs digèrent les résultats en utilisant des prédictions et d’autres heuristiques. Environ un tiers des données provenaient de sources non anglophones, puis traduites. Vous pouvez lire l’article sur la façon dont la formation généralisée sous-performe certains modèles spécifiquement formés sur des repères standard, mais ils pensent que Whisper fait mieux au discours aléatoire au-delà de repères particuliers.

La taille du modèle à la “petite” variante est toujours de 39 mégaoctets et la “grande” variante est supérieure à un gigaoctet et demi. Donc, cela ne fonctionnera probablement pas sur votre Arduino de si tôt. Si vous voulez coder, cependant, tout est sur GitHub.

Il existe d’autres solutions, mais pas aussi robustes. Si vous souhaitez suivre la voie basée sur l’assistant, voici quelques inspirations.

The article is in English

Tags: OpenAI vous entend chuchoter Hackaday

.

PREV La batterie de 4 500 mAh et la charge de 67 W de Xiaomi Civi 2 confirmées dans le dernier teaser
NEXT La BMW M4 CSL déploie ses six muscles en ligne lors d’un test d’accélération