Hoje, estamos mais próximos de um futuro de celebridades imortais, algo que temos sido prometidos há muito tempo (desde abril). A Meta revelou o Voicebox, seu modelo generativo de texto para fala que promete fazer pelo áudio o que o ChatGPT e o Dall-E fizeram, respectivamente, pela geração de texto e imagens.

Essencialmente, é um gerador de texto para saída de áudio, assim como o GPT ou o Dall-E, mas em vez de criar prosa ou imagens bonitas, ele gera clipes de áudio. A Meta define o sistema como “um modelo de fluxo de correspondência não autoregressivo treinado para preencher o discurso, com base no contexto de áudio e texto”. Ele foi treinado em mais de 50.000 horas de áudio não filtrado. Especificamente, a Meta utilizou fala gravada e transcrições de uma variedade de audiolivros de domínio público em inglês, francês, espanhol, alemão, polonês e português.

Essa diversidade de conjunto de dados permite que o sistema gere um discurso com uma sonoridade mais natural e conversacional, independentemente dos idiomas falados por cada parte, de acordo com os pesquisadores. “Nossos resultados mostram que os modelos de reconhecimento de fala treinados em discurso sintético gerado pelo Voicebox têm um desempenho quase tão bom quanto os modelos treinados em fala real”. Além disso, o discurso gerado pelo computador teve apenas uma taxa de erro de 1%, em comparação com a queda de 45% a 70% observada nos modelos existentes de TTS.

Inicialmente, o sistema foi treinado para prever segmentos de fala com base nos segmentos ao seu redor, bem como no texto do trecho. “Depois de aprender a preencher o discurso a partir do contexto, o modelo pode aplicar isso em tarefas de geração de fala, incluindo a geração de trechos no meio de uma gravação de áudio sem ter que recriar toda a entrada”, explicaram os pesquisadores da Meta.

O Voicebox da Meta

O Voicebox também é capaz, segundo relatos, de editar ativamente clipes de áudio, eliminando ruídos da fala e até mesmo substituindo palavras pronunciadas incorretamente. “Uma pessoa poderia identificar qual segmento bruto do discurso está corrompido por ruído (como o latido de um cachorro), recortá-lo e instruir o modelo a regenerar aquele segmento”, disseram os pesquisadores, assim como usar um software de edição de imagens para melhorar fotografias.

Os geradores de texto para fala têm existido há algum tempo – são como os antigos sistemas de navegação por voz (GPS) que conseguiam dar instruções de direção com a voz do Morgan Freeman. As versões modernas, como Speechify ou o Prime Voice AI da Elevenlabs, são muito mais capazes, mas ainda exigem uma quantidade enorme de material de origem para imitar corretamente o sujeito – e depois outra quantidade imensa de dados diferentes para cada outro assunto que você queira treinar.

O Voicebox não precisa disso, graças a um novo e inovador método de treinamento de texto para fala chamado Flow Matching, desenvolvido pela Meta. Os resultados de referência são impressionantes, pois a IA da Meta superou o estado da arte atual tanto em inteligibilidade (uma taxa de erro de palavra de 1,9% versus 5,9%) quanto em “similaridade de áudio” (uma pontuação composta de 0,681 em comparação com 0,580 do estado da arte), enquanto opera até 20 vezes mais rápido do que os melhores sistemas de TTS atualmente disponíveis.

Mas ainda não é hora de ficar animado com seus navegadores de celebridades, pois nem o aplicativo Voicebox nem seu código-fonte estão sendo disponibilizados ao público no momento, confirmou a Meta na sexta-feira, citando “os potenciais riscos de uso indevido”, apesar dos “muitos casos de uso empolgantes para modelos generativos de fala”. Em vez disso, a empresa divulgou uma série de exemplos de áudio, bem como o artigo de pesquisa inicial do programa. No futuro, a equipe de pesquisa espera que a tecnologia seja aplicada em próteses para pacientes com danos nas cordas vocais, em personagens não jogáveis (NPCs) em jogos e em assistentes digitais. Com informações do Engaget.