グーグルは、テキストの断片を曲に変えることができる高度なAI音楽ジェネレーターを発表した。

ChatGPT」や「DALL-E 2」など、ユーザーのリクエストに応じて印象的なテキストや画像を生成できる高度なAIは、2022年に爆発的な人気を博したが、これらは最初のジェネレーターAIでもなければ、ニューラルネットワークができることを示す唯一の例でもない。

ChatGPTやDALL-E 2を開発した研究会社OpenAIは、2020年に「Jukebox」と呼ばれるAI音楽ジェネレーターを発表している。

これらのシステムは、テキストや画像を生成するものほど熱狂的に採用されていないが、その主な理由は、その出力がそれほど印象的ではないからだ。

何が新しいのか?

音楽作成AIはより良くなっており、おそらくこの技術の最も印象的な例は、2023年1月にグーグルが発表したAI音楽ジェネレーター、MusicLMだろう。

このシステムは、テキストの説明に基づいて最大5分のクリップを生成することができ、音楽はグラミー賞を受賞することはないだろうが、音声は他のAIが生成したクリップよりも人間が録音したものに似ている。

仕組み

グーグルはMusicLMを、自然言語で書かれた説明文と音楽をリンクさせるように訓練されたモデルであるMuLanから、28万時間以上の音楽で訓練した。

そして、このAI音楽ジェネレーターを評価するために、5,500以上の音楽クリップからなる一般にアクセス可能なデータセット、MusicCapsを作成した。熟練した音楽家が、これらのクリップそれぞれに字幕を書き、ジャンルやムードなど、クリップを説明する側面のリストも作成した。

評価段階において、グーグルはMusicLMを他の2つのテキスト音楽AI(Mubertと Riffusion)と比較し、クリップの音質とテキスト説明への忠実さを評価する様々な定量的指標を使用した。

また、人間の評価者にMusicCapsの説明と2つのオーディオクリップを提示しました。これらは、AIが作成した2つのクリップ、またはAIが作成した1つのクリップとMusicCapsの説明の元となった曲です。評価者は、どちらのクリップが最も説明に合っているかを選ぶ。

グーグルがarXivのプレプリントサーバーで公開した論文によると、MusicLMは他のAIを全面的に上回った。

“我々は、音楽生成に関連するこれらのリスクに対処するために、より多くの将来の研究の必要性を強く強調する。”

agostinelli et al.

将来への注目

グーグルのAI音楽生成システムは、人間が作曲した音楽に近い音声を生成できるかもしれないが、伝統的な曲の構造を再現することはまだできない。

グーグルによると、このシステムの今後の研究は、これらの問題に焦点を当て、オーディオの全体的な品質を向上させ、MusicLMの一般公開を妨げている問題に対処することができるという。

「我々は、このユースケースに関連するクリエイティブなコンテンツの潜在的な不正流用のリスクを認識している…我々は、音楽生成に関連するこれらのリスクと戦うために、より多くの将来の研究の必要性を強く強調する」と研究者は書いている。