O modelo de áudio de IA geradora Bark da Suno AI pode gerar sons além de vozes em muitos idiomas.

A geração de sons dentro de uma fala é flexível, usando instruções no texto que solicitam o modelo de voz, como [riso] ou [suspiro]. A Suno AI lista uma série de instruções sonoras, mas diz que encontra novas todos os dias. Nos meus testes iniciais, as instruções não eram totalmente confiáveis. Além disso, Bark não pode latir ainda. Mas ainda é muito divertido.

Bark atualmente suporta 13 idiomas, incluindo inglês, alemão, espanhol, francês, japonês e hindi. A Suno AI diz que a saída de voz em inglês soa melhor, mas que as vozes em outros idiomas devem soar melhor com mais escala. Mais línguas estão em obras.

Um recurso inexperiente: semelhante à impressionante IA de voz da ElevenLabs, uma voz em inglês fala texto em alemão com sotaque inglês.

[clears throat] Oi pessoal, aqui é o André. E, é [gasps] — esse aqui é um teste do Bark. [laughs]. Ele tem várias funcionalidades [music]

Prompt usado no Bark AI

Bark faz sem fonemas

Ao contrário do DALL-E da Microsoft, que a equipe do Bark cita como inspiração junto com o AudioLM, o Bark evita o uso de sons de fala abstratos, conhecidos como fonemas, e, em vez disso, incorpora prompts de texto diretamente em tokens semânticos de nível superior. Isso permite que Bark generalize além da linguagem falada para outros sons ou músicas que aparecem nos dados do treinamento.

Um segundo modelo converte esses tokens semânticos em tokens de codec de áudio para gerar a forma de onda completa. Para compactação, a equipe usa o poderoso método de compactação de áudio AI Encodec da Meta.

A equipe da Bark está disponibilizando uma versão demo de seu software gratuitamente no Github. A demonstração não pode ser usada comercialmente, e Bark também requer modelos de linguagem Transformer com mais de 100 bilhões de parâmetros. A Suno AI planeja oferecer seus próprios modelos de IA de áudio geradores no futuro e iniciou uma lista de espera.

Mais Emotional AI Voices: Meta e Google lideraram o caminho

A própria Meta também revelou um grande modelo de IA geradora não supervisionada para geração de voz. Semelhante ao Bark, o Modelo Gerativo de Linguagem Falada (GLSM) aprendeu a produzir sons humanos como rir, bocejar ou chorar, além da fala pura. Isso faz com que as vozes supostamente frias da IA pareçam muito mais humanas. Com o AudioGen, a Meta também possui um modelo de IA para efeitos de áudio puros a partir da entrada de texto.

Isso traz de volta memórias do lendário telefone do Google AI Duplex, que soou quase tão natural quanto um ser humano, imitando sons humanos para pausas na fala, como “ uhm”. A revelação do Duplex provocou um debate sobre se uma voz de computador deve permanecer não reconhecida e, portanto, enganar as pessoas, ou se deve se revelar. O Google escolheu o último, mas o produto ainda não fez um grande avanço. Ainda assim, existem IAs mais do que suficientes que podem enganar as pessoas hoje.