Dois estudantes universitários criam modelo de voz por IA para rivalizar com o NotebookLM

Dois estudantes universitários, sem vasta experiência em inteligência artificial, afirmam ter desenvolvido um modelo de IA de código aberto capaz de gerar trechos de áudio ao estilo de podcasts, similar ao NotebookLM do Google.

O mercado de ferramentas de síntese de voz é extenso e vem crescendo. Embora a ElevenLabs seja uma das maiores referências, há diversas concorrentes, como PlayAI e Sesame, entre outras. Investidores acreditam no potencial imenso dessas tecnologias, e, segundo dados do PitchBook, startups que trabalham com tecnologia de voz IA arrecadaram mais de US$ 398 milhões em financiamento de capital de risco no último ano.

Toby Kim, um dos cofundadores da Nari Labs – grupo por trás do recém-lançado modelo – contou que ele e o outro fundador começaram a se aprofundar em IA de voz há apenas três meses. Inspirados pelo NotebookLM, eles buscaram criar um modelo que oferecesse maior controle sobre as vozes geradas e liberdade na elaboração dos roteiros.

Para treinar o modelo, chamado Dia, a equipe utilizou o programa TPU Research Cloud do Google, que proporciona acesso gratuito aos chips de IA TPU para pesquisadores. Com 1,6 bilhão de parâmetros, o Dia é capaz de gerar diálogos a partir de um roteiro, permitindo aos usuários personalizar o tom dos falantes e inserir hesitações, tosses, risadas, entre outros indícios não verbais. Os parâmetros representam as variáveis internas que os modelos utilizam para fazer previsões, e, de modo geral, modelos com maior número de parâmetros tendem a apresentar melhor desempenho.

Disponível na plataforma de desenvolvimento de IA Hugging Face e no GitHub, o Dia pode ser executado na maioria dos PCs modernos com pelo menos 10GB de VRAM. Por padrão, ele gera uma voz aleatória, a menos que seja fornecida uma descrição de um estilo específico, mas também tem a capacidade de clonar a voz de uma pessoa.

Em testes realizados por meio da demonstração web da Nari Labs, o modelo funcionou muito bem, gerando diálogos bidirecionais sobre uma ampla variedade de assuntos. A qualidade das vozes se mostra competitiva em relação a outras ferramentas disponíveis, e a função de clonagem de voz está entre as mais simples de se utilizar.

Contudo, assim como muitos geradores de voz, o Dia apresenta poucas salvaguardas. Isso facilita, de maneira quase irrestrita, a criação de desinformação ou gravações fraudulentas. Nas páginas do projeto, a Nari Labs desencoraja o uso do modelo para fins que possam levar à falsificação, engano ou envolvimento em campanhas ilícitas, porém o grupo ressalta que não se responsabiliza por usos indevidos.

Além disso, a Nari Labs não revelou quais dados foram utilizados para treinar o Dia. Há indícios de que o modelo pode ter sido desenvolvido com base em conteúdos protegidos por direitos autorais – um comentário no Hacker News apontou que uma amostra soou semelhante à dos apresentadores do podcast “Planet Money” da NPR. O treinamento de modelos com conteúdos protegidos é uma prática comum, embora juridicamente controversa, pois enquanto algumas empresas de IA defendem que o uso justo as isenta de responsabilidades, os detentores dos direitos afirmam que essa proteção não se aplica ao processo de treinamento.

De qualquer forma, Kim afirmou que o plano da Nari Labs é desenvolver uma plataforma de voz sintética com um componente social, integrando o Dia a modelos maiores que estão por vir. A empresa também pretende publicar um relatório técnico detalhado sobre o Dia e expandir o suporte do modelo para idiomas além do inglês.