O Google revelou um avançado gerador de música de IA que pode transformar um trecho de texto em uma música — mas preocupações legais podem impedir que o gigante da tecnologia compartilhe com o público.

ChatGPT, DALL-E 2 e outras IAs avançadas capazes de gerar texto ou imagens impressionantes em resposta a solicitações de usuários explodiram em popularidade em 2022, mas não foram as primeiras IAs geradoras, nem os únicos exemplos do que as redes neurais podem fazer.

Várias empresas também treinaram IAs para gerar música em resposta a prompts de texto, áudio ou imagem — OpenAI, a empresa de pesquisa por trás do ChatGPT e DALL-E 2, até lançou um gerador de música AI chamado “Jukebox” em 2020.

Esses sistemas não foram tão entusiasticamente adotados quanto suas contrapartes geradoras de texto e imagem, principalmente porque suas saídas não são tão impressionantes — a maioria é de baixa fidelidade, simplista e carente de estruturas tradicionais de músicas, como repetir refrões.

O que é novo?

As IAs de criação de música estão melhorando, e talvez o exemplo mais impressionante da tecnologia seja o MusicLM, um gerador de música de IA revelado pelo Google em janeiro de 2023.

O sistema pode gerar clipes de até 5 minutos de duração com base em descrições de texto e, embora a música não ganhe nenhum Grammy, o áudio soa mais como algo que um humano pode gravar do que os clipes gerados por outras IAs.

Como Funciona

O Google treinou o MusicLM em mais de 280.000 horas de música proveniente do MuLan, um modelo treinado para vincular música a descrições escritas em linguagem natural.

Eles então criaram o MusicCaps, um conjunto de dados acessível ao público de mais de 5.500 clipes de música para usar para avaliar o gerador de música de IA. Músicos especialistas escreveram legendas para cada um desses clipes, bem como listas de aspectos para descrevê-los, como seu gênero ou humor.

Durante o estágio de avaliação, o Google colocou o MusicLM contra duas outras IAs de texto para música — Mubert e Riffusion — usando várias métricas quantitativas para avaliar a qualidade de áudio de um clipe e a aderência a uma descrição de texto.

Eles também apresentaram aos avaliadores humanos as descrições do MusicCaps e dois clipes de áudio — podem ser dois clipes produzidos por IAs ou um clipe gerado por IA e a música na qual a descrição do MusicCaps foi baseada. Os avaliadores então escolheram qual dos clipes eles achavam que melhor correspondia à descrição.

De acordo com um artigo que o Google compartilhou no servidor de pré-impressão arXiv, o MusicLM superou as outras IAs em toda a linha.

“Enfatizamos fortemente a necessidade de mais trabalho futuro para enfrentar esses riscos associados à geração de música.”

AGOSTINELLI ET AL.

Foco no futuro

O gerador de música AI do Google pode ser capaz de produzir áudio que soa mais próximo da música escrita por humanos, mas ainda não consegue replicar as estruturas tradicionais das músicas, e os vocais que cria são particularmente de baixa qualidade, com letras ininteligíveis.

O Google diz que o trabalho futuro no sistema pode se concentrar nessas questões, melhorando a qualidade geral do áudio e abordando o problema que o impede de lançar o MusicLM ao público: cerca de 1% de sua produção pode ser aproximadamente igualada ao áudio em seus dados de treinamento.

“Reconhecemos o risco de potencial apropriação indevida de conteúdo criativo associado ao caso de uso… Enfatizamos fortemente a necessidade de mais trabalho futuro no combate a esses riscos associados à geração de música”, escreveram os pesquisadores.