O Google apresenta o MusicLM, um modelo generativo de texto para música. Ele pode gerar faixas de vários minutos a partir de prompts de texto.
Embora os modelos de IA geradores de imagens já tenham atingido a qualidade visual dos artistas humanos, os modelos de áudio e música ainda estão muito atrasados. Um “DALL-E para música” é difícil de perceber.
Existem abordagens como o AudioGen da Meta, o Riffusion ou o AudioLM do Google, mas ainda não há um modelo de música generativa convincente.
Além da complicada situação de direitos autorais para a música, a dimensão temporal é um grande desafio: as imagens são estáticas, a música muda.
Dependendo da cultura, essas mudanças seguem certas regras – mas também podem ser quebradas.
MusicLM do Google gera uma música que é até boa
AudioLM é um modelo de IA geradora para linguagem, áudio e música. AudioLM usa técnicas de modelos de linguagem em larga escala: Um modelo BERT especializado em áudio (w2v-BERT) constrói tokens semânticos a partir de formas de onda de áudio que podem capturar, por exemplo, a fonética da linguagem ou melodias locais, harmonias ou ritmos.]
Um codificador chamado SoundStream captura os detalhes mais finos das formas de onda de áudio em tokens acústicos e é responsável pela síntese de áudio de alta qualidade. Agora, o Google está introduzindo o MusicLM, um sistema de IA generativo que combina o AudioLM com outro modelo.
Este terceiro componente é chamado MuLan, e foi treinado pelo Google usando pares de trechos de áudio de 10 segundos e descrições de texto correspondentes criadas por dez músicos profissionais.
O conjunto de dados de treinamento MusicCaps de 5.500 clipes de música e descrições de texto foi publicado pelo Google.
Após o treinamento, o MusicLM prevê tokens acústicos, dados os tokens de áudio MuLan e os tokens semânticos w2v-BERTs. Estes são então convertidos em áudio pelo SoundStream. Usando esse método, o Google pode gerar vários minutos de música.
O MusicLM pode ser controlado com melodias
Os resultados variam de uma música lenta de reggae a uma trilha sonora de jogos de arcade, de jazz relaxante a cantos gregorianos. O MusicLM pode ser controlado com uma frase curta ou com descrições detalhadas.
Prompt 1:
A trilha sonora principal de um jogo de arcade. É rápido e otimista, com um riff de guitarra elétrica cativante. A música é repetitiva e fácil de lembrar, mas com sons inesperados, como falhas de pratos ou tambores.
Resultado 1:
Prompt 2:
We can hear a choir, singing a Gregorian chant, and a drum machine, creating a rhythmic beat. The slow, stately sounds of strings provide a calming backdrop for the fast, complex sounds of futuristic electronic music.
Resultado 2:
MusicLM ainda tem problemas com vocais, negações em prompts e sequências temporais. A equipe planeja abordar esses problemas no futuro e também planeja melhorar a qualidade do áudio gerado. Mais informações e exemplos podem ser encontrados na página do projeto MusicLM. De acordo com o jornal, atualmente não há planos para lançar o modelo.
Artigo inspirado no post do The Decoder.