O Google apresenta o MusicLM, um modelo generativo de texto para música. Ele pode gerar faixas de vários minutos a partir de prompts de texto.

Embora os modelos de IA geradores de imagens já tenham atingido a qualidade visual dos artistas humanos, os modelos de áudio e música ainda estão muito atrasados. Um “DALL-E para música” é difícil de perceber.

Existem abordagens como o AudioGen da Meta, o Riffusion ou o AudioLM do Google, mas ainda não há um modelo de música generativa convincente.

Além da complicada situação de direitos autorais para a música, a dimensão temporal é um grande desafio: as imagens são estáticas, a música muda.

Dependendo da cultura, essas mudanças seguem certas regras – mas também podem ser quebradas.

MusicLM do Google gera uma música que é até boa

Google MusicLM gera música com inteligência artificial

AudioLM é um modelo de IA geradora para linguagem, áudio e música. AudioLM usa técnicas de modelos de linguagem em larga escala: Um modelo BERT especializado em áudio (w2v-BERT) constrói tokens semânticos a partir de formas de onda de áudio que podem capturar, por exemplo, a fonética da linguagem ou melodias locais, harmonias ou ritmos.]

Um codificador chamado SoundStream captura os detalhes mais finos das formas de onda de áudio em tokens acústicos e é responsável pela síntese de áudio de alta qualidade. Agora, o Google está introduzindo o MusicLM, um sistema de IA generativo que combina o AudioLM com outro modelo.

Este terceiro componente é chamado MuLan, e foi treinado pelo Google usando pares de trechos de áudio de 10 segundos e descrições de texto correspondentes criadas por dez músicos profissionais.

O conjunto de dados de treinamento MusicCaps de 5.500 clipes de música e descrições de texto foi publicado pelo Google.

Após o treinamento, o MusicLM prevê tokens acústicos, dados os tokens de áudio MuLan e os tokens semânticos w2v-BERTs. Estes são então convertidos em áudio pelo SoundStream. Usando esse método, o Google pode gerar vários minutos de música.

O MusicLM pode ser controlado com melodias

Os resultados variam de uma música lenta de reggae a uma trilha sonora de jogos de arcade, de jazz relaxante a cantos gregorianos. O MusicLM pode ser controlado com uma frase curta ou com descrições detalhadas.

Prompt 1:

A trilha sonora principal de um jogo de arcade. É rápido e otimista, com um riff de guitarra elétrica cativante. A música é repetitiva e fácil de lembrar, mas com sons inesperados, como falhas de pratos ou tambores.

Resultado 1:

Prompt 2:

We can hear a choir, singing a Gregorian chant, and a drum machine, creating a rhythmic beat. The slow, stately sounds of strings provide a calming backdrop for the fast, complex sounds of futuristic electronic music.

Resultado 2:

MusicLM ainda tem problemas com vocais, negações em prompts e sequências temporais. A equipe planeja abordar esses problemas no futuro e também planeja melhorar a qualidade do áudio gerado. Mais informações e exemplos podem ser encontrados na página do projeto MusicLM. De acordo com o jornal, atualmente não há planos para lançar o modelo.

Artigo inspirado no post do The Decoder.