Google a dévoilé un générateur de musique à base d’IA avancée, capable de transformer un bout de texte en chanson, mais des préoccupations d’ordre juridique pourraient empêcher le géant de la technologie de le partager avec le public.

ChatGPT, DALL-E 2 et d’autres IA avancées capables de générer des textes ou des images impressionnants en réponse à des demandes d’utilisateurs ont connu une popularité fulgurante en 2022, mais il ne s’agissait pas des premiers générateurs d’IA, ni des seuls exemples de ce que les réseaux neuronaux peuvent faire.

Plusieurs entreprises ont également entraîné des IA à générer de la musique en réponse à des textes, des sons ou des images. OpenAI, la société de recherche à l’origine de ChatGPT et de DALL-E 2, a même lancé un générateur de musique appelé« Jukebox » en 2020.

Ces systèmes n’ont pas été adoptés avec autant d’enthousiasme que leurs homologues générateurs de textes et d’images, principalement parce que leurs résultats ne sont pas très impressionnants – la plupart sont de faible fidélité, simplistes et dépourvus de structures de chansons traditionnelles, telles que des refrains répétitifs.

Quoi de neuf ?

Les IA de création musicale s’améliorent, et l’exemple le plus impressionnant de cette technologie est sans douteMusicLM, un générateur de musique IA dévoilé par Google en janvier 2023.

Le système peut générer des clips d’une durée maximale de 5 minutes à partir de descriptions textuelles et, même si la musique ne gagnera pas de Grammys, le son ressemble davantage à ce qu’un humain pourrait enregistrer que les clips générés par d’autres IA.

Fonctionnement

Google a entraîné MusicLM sur plus de 280 000 heures de musique provenant de MuLan, un modèle formé pour relier la musique à des descriptions écrites en langage naturel.

Il a ensuite créé MusicCaps, un ensemble de données accessible au public comprenant plus de 5 500 clips musicaux, afin d’évaluer le générateur de musique de l’IA. Des musiciens experts ont rédigé des sous-titres pour chacun de ces clips, ainsi que des listes d’aspects permettant de les décrire, tels que leur genre ou leur ambiance.

Au cours de la phase d’évaluation, Google a confronté MusicLM à deux autres IA de conversion de texte en musique – Mubert et Riffusion – en utilisant diverses mesures quantitatives pour évaluer la qualité audio d’un clip et le respect d’une description textuelle.

Ils ont également présenté aux évaluateurs humains les descriptions MusicCaps et deux clips audio – il pouvait s’agir de deux clips produits par des IA ou d’un clip généré par une IA et de la chanson sur laquelle la description MusicCaps était basée. Les évaluateurs choisissaient ensuite le clip qui, selon eux, correspondait le mieux à la description.

Selon un article que Google a publié sur le serveur arXiv preprint, MusicLM a obtenu de meilleurs résultats que les autres IA.

« Nous insistons fortement sur la nécessité d’approfondir les travaux futurs afin de traiter les risques associés à la génération de musique »

AGOSTINELLI ET AL.

L’avenir en ligne de mire

Le générateur de musique par IA de Google est peut-être capable de produire un son plus proche de la musique écrite par des humains, mais il ne peut toujours pas reproduire les structures traditionnelles des chansons, et les voix qu’il crée sont de qualité particulièrement médiocre, avec des paroles inintelligibles.

Google indique que les travaux futurs sur le système pourront se concentrer sur ces questions, en améliorant la qualité globale de l’audio et en résolvant le problème qui l'empêche de rendre MusicLM accessible au public : environ 1 % de sa production peut correspondre approximativement à l’audio dans ses données d’entraînement.

« Nous reconnaissons le risque d’appropriation illicite de contenu créatif associé à ce cas d’utilisation… Nous insistons fortement sur la nécessité de poursuivre les travaux pour lutter contre ces risques associés à la génération de musique », écrivent les chercheurs.