La Meta a lancé un nouveau modèle d’IA capable de traduire directement la parole dans 35 langues et le texte dans 100 langues.
Avec le nouveau modèle encodeur-décodeur multimodal « SeamlessM4T », la Meta combine les technologies de ses projets de traduction d’IA de longue date, tels que No Language Left Behind (NLLB), Universal Speech Translator et Massively Multilingual Speech, en un seul modèle. M4T signifie Massively Multilingual & Multimodal Machine Translation (Traduction de Machine Multilingue et Multimodale en Masse).
Selon la Meta, en implémentant les différents modèles précédents dans un système unique, elle réduit les erreurs et les retards, améliorant ainsi l’efficacité et la qualité du processus de traduction.
Le modèle est multimodal, car il peut traduire le texte dans 100 langues, ainsi que la langue parlée, c’est-à-dire l’audio dans 35 langues. Au total, le modèle peut traduire la parole en texte, la parole en parole, le texte en parole et le texte en texte, en reconnaissant automatiquement la parole.
Selon la Meta, le SeamlessM4T est le premier modèle capable de traduire directement la parole dans de nombreuses langues (35), sans passer par la traduction du texte. Le modèle est considéré comme une « étape significative » vers un traducteur universel, similaire au poisson Babel dans « Le Guide du voyageur galactique », explicitement mentionné par la Meta comme un objectif dans l’annonce.
L’IA peut aider Meta à surmonter les barrières linguistiques sur ses plateformes sociales
Selon Meta, le SeamlessM4T atteint de nouvelles performances de pointe dans des références de traduction importantes, dépassant le Whisper d’OpenAI. Si vous voulez le constater par vous-même, vous pouvez essayer une démo interactive ici.
Le plus grand modèle, le SeamlessM4T-Large, dépasse également le Whisper en termes d’évaluation humaine, mais la différence est moindre que dans les benchmarks automatiques. Les deux modèles restent encore en deçà des traductions humaines en termes de qualité, mais la différence diminue à chaque nouveau modèle.
La Meta lance le modèle sous la licence CC BY-NC 4.0 en tant que modèle open source sur Github, mais vous ne pouvez pas l’utiliser à des fins commerciales. Selon le PDG de Meta, Mark Zuckerberg, il sera intégré aux propres plateformes sociales de l’entreprise, telles que Facebook, Instagram, WhatsApp, Messenger et Threads, à l’avenir.
En plus du modèle, Meta met également à disposition l’ensemble de données « SeamlessAlign » que l’équipe a compilé pour former le SeamlessM4T. Meta affirme que c’est le plus grand ensemble de données ouvert pour la traduction multimodale, avec 470 000 heures de contenu dans 37 langues. L’extension à 100 langues est un sujet de développement futur. Ce serait la prochaine étape vers un traducteur universel.