オンラインツール, 人工知能

吠える “AIが咳や泣き声、歌まで可能に

更新しました 25/09/2023

コミュニティの一員になる

メーリングリストに参加して限定コンテンツを受け取りましょう

Suno AIのBark生成AI音声モデルは、多くの言語で音声に加えて音を生成することができます。

音声内の音の生成は柔軟で、音声モデルを促すテキスト内の指示、例えば[笑い]や[ため息]などを使用する。Suno AIは多くの音声指示をリストアップしているが、毎日新しいものを見つけているという。私の最初のテストでは、その指示は完全に信頼できるものではなかった。しかも、Barkはまだ吠えることができない。しかし、それでもとても楽しい。

Barkは現在、英語、ドイツ語、スペイン語、フランス語、日本語、ヒンディー語を含む13カ国語に対応している。Suno AIによれば、英語の音声出力が最もよく聞こえるが、他の言語の音声はもっとスケールを大きくすればもっとよく聞こえるはずだという。さらに多くの言語への対応が予定されている。

未経験の機能：イレブンラボの印象的な音声AIと同様に、英語の音声が英語のアクセントでドイツ語のテキストを話す。

[こんにちは、アンドレです。これはバークテストです。[笑]。様々な機能を備えています[音楽]。
Bark AIで使われるプロンプト

Barkは音素なしで発音する

BarkチームがAudioLMとともにインスピレーションの源として挙げているマイクロソフトのDALL-Eとは異なり、Barkは音素として知られる抽象的な音声の使用を避け、代わりにテキストプロンプトをより高度なセマンティック・トークンに直接埋め込んでいる。これにより、Barkは話し言葉だけでなく、トレーニングデータに現れる他の音や曲にも汎化することができる。

2つ目のモデルは、これらのセマンティックトークンをオーディオコーデックトークンに変換し、完全な波形を生成する。圧縮には、メタ社の強力なAI Encodec音声圧縮方式を使用している。

Barkチームは、ソフトウェアのデモ版をGithubで無料公開している。デモは商用には使用できず、Barkは1000億以上のパラメーターを持つTransformer言語モデルも必要とする。Suno AIは将来、独自の音声生成AIモデルを提供する予定で、キャンセル待ちリストを開始している。

より感情的なAI音声：MetaとGoogleがリード

Meta自身もまた、音声生成のための優れた教師なしジェネレーターAIモデルを発表した。Barkと同様、Generative Speech Language Model（GLSM）は、純粋な音声に加えて、笑ったり、あくびをしたり、泣いたりといった人間の声を生成することを学習した。これにより、冷たいはずのAIの声が、より人間らしく聞こえるようになる。AudioGenによって、メタはテキスト入力から純粋な音声効果を得るためのAIモデルも持っている。

これは、グーグルの伝説的なAI携帯電話「Duplex」の記憶を呼び起こす。Duplexは、「うーん」といった話し方の間を取るために人間の音を模倣し、人間とほとんど変わらない自然な音声を発していた。デュプレックスの発表は、コンピュータの音声は認識されないままであるべきで、それゆえに人を欺くべきなのか、それとも自ら姿を現すべきなのかという議論を巻き起こした。グーグルは後者を選んだが、この製品はまだブレイクスルーを起こしていない。それでも、今日、人を騙すことのできるAIは十分すぎるほど存在する。

André Lug

Iglu Online の創設者であり、ブログのライターである André Lug。人工知能とコンテンツ作成のスペシャリストとして、彼は AI、生産性、起業家精神に関するコンテンツを提供しています。

吠える “AIが咳や泣き声、歌まで可能に

メーリングリストに参加して限定コンテンツを受け取りましょう

Barkは音素なしで発音する

より感情的なAI音声：MetaとGoogleがリード

André Lug

コメントを残すコメントをキャンセル

ニュースレターを購読する

どこに行こうか

吠える “AIが咳や泣き声、歌まで可能に

メーリングリストに参加して限定コンテンツを受け取りましょう

Barkは音素なしで発音する

より感情的なAI音声：MetaとGoogleがリード

André Lug

コメントを残す コメントをキャンセル

ニュースレターを購読する

どこに行こうか

コメントを残すコメントをキャンセル