Meta ha lanzado un nuevo modelo de IA capaz de traducir directamente el habla en 35 idiomas y texto en 100 idiomas.

Con el nuevo modelo codificador-decodificador multimodal «SeamlessM4T», Meta combina tecnologías de sus proyectos de traducción de IA de larga data, como No Language Left Behind (NLLB), Universal Speech Translator y Massively Multilingual Speech, en un solo modelo. M4T significa Traducción de Máquina Multilingüe y Multimodal en Masa.

Según Meta, al implementar los varios modelos anteriores en un sistema único, se reducen errores y retrasos, mejorando la eficiencia y calidad del proceso de traducción.

El modelo es multimodal, ya que puede traducir texto en 100 idiomas, así como lenguaje hablado, que es audio en 35 idiomas. En total, el modelo puede traducir de habla a texto, de habla a habla, de texto a habla y de texto a texto, además de reconocer automáticamente el habla.

Según Meta, SeamlessM4T es el primer modelo que puede traducir muchos idiomas (35) directamente de nuevo a lenguaje hablado, sin pasar por la traducción de texto. El modelo se considera un «paso significativo» hacia un traductor universal, similar al pez Babel en «Guía del autoestopista galáctico», mencionado explícitamente por Meta como un objetivo en el anuncio.

Video de SeamlessM4T de Meta.

La IA puede ayudar a Meta a superar las barreras lingüísticas en sus plataformas sociales

Según Meta, SeamlessM4T logra nuevos resultados líderes en importantes puntos de referencia de traducción, superando a Whisper de OpenAI. Si desea verlo por sí mismo, puede probar una demostración interactiva aquí.

performance do SeamlessM4T


El modelo más grande, SeamlessM4T-Large, también supera a Whisper en evaluación humana, pero la diferencia es menor que en las pruebas automáticas. Ambos modelos aún se encuentran detrás de las traducciones humanas en términos de calidad, pero la diferencia disminuye con cada nuevo modelo.

performance do sistema

Meta está lanzando el modelo bajo la licencia CC BY-NC 4.0 como un modelo de código abierto en Github, pero no se puede utilizar con fines comerciales. Según el CEO de Meta, Mark Zuckerberg, en el futuro se integrará en las propias plataformas sociales de la empresa, como Facebook, Instagram, WhatsApp, Messenger y Threads.

Además del modelo, Meta también está poniendo a disposición el conjunto de datos «SeamlessAlign» que el equipo compiló para entrenar el SeamlessM4T. Meta afirma que este es el conjunto de datos abierto más grande para la traducción multimodal, con 470,000 horas de material en 37 idiomas. La expansión a 100 idiomas es un tema para el desarrollo futuro. Esto sería el siguiente paso hacia un traductor universal.