Suno AIのBark生成AI音声モデルは、多くの言語で音声に加えて音を生成することができます。

音声内の音の生成は柔軟で、音声モデルを促すテキスト内の指示、例えば[笑い]や[ため息]などを使用する。Suno AIは多くの音声指示をリストアップしているが、毎日新しいものを見つけているという。私の最初のテストでは、その指示は完全に信頼できるものではなかった。しかも、Barkはまだ吠えることができない。しかし、それでもとても楽しい。

Barkは現在、英語、ドイツ語、スペイン語、フランス語、日本語、ヒンディー語を含む13カ国語に対応している。Suno AIによれば、英語の音声出力が最もよく聞こえるが、他の言語の音声はもっとスケールを大きくすればもっとよく聞こえるはずだという。さらに多くの言語への対応が予定されている。

未経験の機能:イレブンラボの印象的な音声AIと同様に、英語の音声が英語のアクセントでドイツ語のテキストを話す。

[こんにちは、アンドレです。これはバークテストです。[笑]。様々な機能を備えています[音楽]。

Bark AIで使われるプロンプト

Barkは音素なしで発音する

BarkチームがAudioLMとともにインスピレーションの源として挙げているマイクロソフトのDALL-Eとは異なり、Barkは音素として知られる抽象的な音声の使用を避け、代わりにテキストプロンプトをより高度なセマンティック・トークンに直接埋め込んでいる。これにより、Barkは話し言葉だけでなく、トレーニングデータに現れる他の音や曲にも汎化することができる。

2つ目のモデルは、これらのセマンティックトークンをオーディオコーデックトークンに変換し、完全な波形を生成する。圧縮には、メタ社の強力なAI Encodec音声圧縮方式を使用している。

Barkチームは、ソフトウェアのデモ版をGithubで無料公開している。デモは商用には使用できず、Barkは1000億以上のパラメーターを持つTransformer言語モデルも必要とする。Suno AIは将来、独自の音声生成AIモデルを提供する予定で、キャンセル待ちリストを開始している。

より感情的なAI音声:MetaとGoogleがリード

Meta自身もまた、音声生成のための優れた教師なしジェネレーターAIモデルを発表した。Barkと同様、Generative Speech Language Model(GLSM)は、純粋な音声に加えて、笑ったり、あくびをしたり、泣いたりといった人間の声を生成することを学習した。これにより、冷たいはずのAIの声が、より人間らしく聞こえるようになる。AudioGenによって、メタはテキスト入力から純粋な音声効果を得るためのAIモデルも持っている。

これは、グーグルの伝説的なAI携帯電話「Duplex」の記憶を呼び起こす。Duplexは、「うーん」といった話し方の間を取るために人間の音を模倣し、人間とほとんど変わらない自然な音声を発していた。デュプレックスの発表は、コンピュータの音声は認識されないままであるべきで、それゆえに人を欺くべきなのか、それとも自ら姿を現すべきなのかという議論を巻き起こした。グーグルは後者を選んだが、この製品はまだブレイクスルーを起こしていない。それでも、今日、人を騙すことのできるAIは十分すぎるほど存在する。