Google ha presentado un avanzado generador musical de inteligencia artificial capaz de convertir un fragmento de texto en una canción, pero es posible que problemas legales impidan al gigante tecnológico compartirlo con el público.

ChatGPT, DALL-E 2 y otras IAs avanzadas capaces de generar textos o imágenes impresionantes en respuesta a las peticiones de los usuarios explotaron en popularidad en 2022, pero no fueron las primeras IAs generadoras, ni los únicos ejemplos de lo que pueden hacer las redes neuronales.

OpenAI, la empresa de investigación que está detrás de ChatGPT y DALL-E 2, incluso lanzó un generador de música artificial llamado«Jukebox» en 2020.

Estos sistemas no han sido adoptados con tanto entusiasmo como sus homólogos generadores de texto e imágenes, principalmente porque sus resultados no son tan impresionantes: la mayoría son de baja fidelidad, simplistas y carecen de estructuras de canción tradicionales, como estribillos repetitivos.

¿Qué hay de nuevo?

Las IA de creación musical son cada vez mejores, y quizá el ejemplo más impresionante de esta tecnología seaMusicLM, un generador musical de IA presentado por Google en enero de 2023.

El sistema puede generar clips de hasta 5 minutos de duración a partir de descripciones de texto y, aunque la música no ganará ningún Grammy, el audio suena más parecido a algo que podría grabar un humano que los clips generados por otras IA.

Cómo funciona

Google entrenó a MusicLM con más de 280.000 horas de música de MuLan, un modelo entrenado para vincular música a descripciones escritas en lenguaje natural.

A continuación, crearon MusicCaps, un conjunto de datos de acceso público con más de 5.500 clips musicales para evaluar el generador musical de IA. Músicos expertos escribieron subtítulos para cada uno de estos clips, así como listas de aspectos para describirlos, como su género o estado de ánimo.

Durante la fase de evaluación, Google enfrentó a MusicLM con otras dos IA de conversión de texto en música ( Mubert y Riffusion ) utilizando varias métricas cuantitativas para evaluar la calidad de audio de un clip y su adecuación a una descripción textual.

También presentaron a los evaluadores humanos las descripciones de MusicCaps y dos clips de audio, que podían ser dos clips producidos por IA o un clip generado por IA y la canción en la que se basaba la descripción de MusicCaps. A continuación, los evaluadores elegían cuál de los clips se ajustaba mejor a la descripción.

Según un artículo publicado por Google en el servidor de preimpresiones arXiv, MusicLM superó a las demás IA en todos los aspectos.

«Insistimos en la necesidad de seguir trabajando en el futuro para abordar estos riesgos asociados a la generación de música»

AGOSTINELLI ET AL.

El futuro en el punto de mira

El generador de música por IA de Google puede ser capaz de producir audio que suene más parecido a la música escrita por humanos, pero todavía no puede replicar las estructuras tradicionales de las canciones, y las voces que crea son particularmente de baja calidad, con letras ininteligibles.

Google afirma que los futuros trabajos sobre el sistema se centrarán en estas cuestiones, en mejorar la calidad general del audio y en resolver el problema que le impide poner MusicLM a disposición del público: alrededor del 1% de sus resultados pueden compararse aproximadamente con el audio de sus datos de entrenamiento.

«Reconocemos el riesgo de posible apropiación indebida de contenidos creativos asociado a este caso de uso… Insistimos en la necesidad de seguir trabajando en el futuro para combatir estos riesgos asociados a la generación de música», escriben los investigadores.