A Meta lançou um novo modelo de IA capaz de traduzir diretamente fala em 35 idiomas e texto em 100 idiomas.

Com o novo modelo codificador-decodificador multimodal “SeamlessM4T”, a Meta combina tecnologias de seus projetos de tradução de IA de longa data, como o No Language Left Behind (NLLB), Universal Speech Translator e Massively Multilingual Speech, em um único modelo. M4T significa Massively Multilingual & Multimodal Machine Translation (Tradução de Máquina Multilíngue e Multimodal em Massa).

De acordo com a Meta, ao implementar os vários modelos anteriores em um sistema único, ela reduz erros e atrasos, melhorando a eficiência e qualidade do processo de tradução.

O modelo é multimodal, pois pode traduzir texto em 100 idiomas, além de linguagem falada, que é áudio em 35 idiomas. No total, o modelo pode traduzir fala para texto, fala para fala, texto para fala e texto para texto, além de reconhecer automaticamente a fala.

Segundo a Meta, o SeamlessM4T é o primeiro modelo que pode traduzir muitos idiomas (35) diretamente de volta para a linguagem falada, sem passar pela tradução de texto. O modelo é considerado um “passo significativo” em direção a um tradutor universal, semelhante ao peixe Babel em “O Guia do Mochileiro das Galáxias”, mencionado explicitamente pela Meta como um objetivo no anúncio.

Vídeo do SeamlessM4T da Meta

A IA pode ajudar a Meta a superar as barreiras linguísticas em suas plataformas sociais

Segundo a Meta, o SeamlessM4T alcança novos resultados de ponta em importantes referências de tradução, superando o Whisper da OpenAI. Se você quiser ver por si mesmo, pode experimentar um demo interativo aqui.

performance do SeamlessM4T

O maior modelo, o SeamlessM4T-Large, também supera o Whisper em avaliação humana, mas a diferença é menor do que nos benchmarks automáticos. Ambos os modelos ainda ficam atrás das traduções humanas em termos de qualidade, mas a diferença diminui a cada novo modelo.

performance do sistema

A Meta está lançando o modelo sob a licença CC BY-NC 4.0 como um modelo de código aberto no Github, mas você não pode usá-lo comercialmente. De acordo com o CEO da Meta, Mark Zuckerberg, ele será integrado às próprias plataformas sociais da empresa, como Facebook, Instagram, WhatsApp, Messenger e Threads, no futuro.

Além do modelo, a Meta também está disponibilizando o conjunto de dados “SeamlessAlign” que a equipe compilou para treinar o SeamlessM4T. A Meta afirma que este é o maior conjunto de dados aberto para tradução multimodal, com 470.000 horas de material em 37 idiomas. A expansão para 100 idiomas é um tópico para desenvolvimento futuro. Isso seria o próximo passo em direção a um tradutor universal.