今日、我々は長い間(4月以来)約束されてきた不滅の有名人の未来に近づいている。Meta社は、ChatGPTとDall-Eがそれぞれテキストと画像生成のために行ったことを音声のために行うことを約束する生成的音声合成モデル、Voiceboxを発表した。

基本的には、GPTやDall-Eのような音声合成ジェネレーターだが、美しい散文や画像を生成するのではなく、音声クリップを生成する。メタ社は、このシステムを「音声とテキストの文脈に基づいて、音声を埋めるように訓練された非自己回帰的マッチングフローモデル」と定義している。50,000時間以上のフィルタリングされていない音声でトレーニングされている。具体的には、Metaは、英語、フランス語、スペイン語、ドイツ語、ポーランド語、ポルトガル語の様々なパブリックドメインのオーディオブックから録音された音声とトランスクリプトを利用した。

研究者らによると、この多様なデータセットにより、各当事者が話す言語に関係なく、システムはより自然に聞こえる会話音声を生成できるようになったという。”我々の結果は、Voiceboxによって生成された合成音声で訓練された音声認識モデルが、実際の音声で訓練されたモデルとほぼ同等の性能を発揮することを示しています。”さらに、コンピュータが生成した音声のエラー率はわずか1%であった。 70%低下した。

当初、システムは、抜粋のテキストだけでなく、その周りのセグメントに基づいて音声セグメントを予測するように訓練された。「文脈から音声を補うことを学習した後、このモデルは、入力全体を再作成することなく、音声録音の途中でスニペットを生成するなど、音声生成タスクにこれを適用することができます」とMetaの研究者は説明している。

メタ社のVoicebox

Voiceboxはまた、音声クリップを能動的に編集し、音声ノイズを除去したり、発音を間違えた単語を置き換えたりすることもできるという。研究者たちは、「(犬の鳴き声のような)ノイズによって壊れた音声のセグメントを特定し、それをカットして、そのセグメントを再生するようモデルに指示することができる」と述べている。

モーガン・フリーマンの声で道案内をする昔の音声ナビゲーション・システム(GPS)のようなものだ。Speechifyや ElevenlabsのPrime Voice AIのような最新バージョンは、はるかに高性能だが、それでも被写体を正しく模倣するためには膨大な量のソース素材が必要で、さらに訓練したい被写体ごとに別の膨大な量のデータが必要になる。

Voiceboxは、メタが開発したフロー・マッチングと呼ばれる革新的な新しい音声合成トレーニング方法のおかげで、そのような必要がない。ベンチマークの結果は印象的で、メタ社のAIは、明瞭度(単語誤り率1.9%対5.9%)と「音声類似度」(合成スコア0.681対0.580)の両方で、現在の最先端技術を上回り、同時に現在利用可能な最高のTTSシステムよりも最大20倍速く動作した。

というのも、メタ社は金曜日に、「生成音声モデルには多くのエキサイティングな使用例がある」にもかかわらず、「悪用される可能性がある」ことを理由に、Voiceboxアプリもそのソースコードも現時点では公開していないからだ。その代わりに、同社は多くの音声例とプログラムの初期研究論文を公開した。研究チームは将来、この技術が声帯損傷患者のための義肢や、ゲームの非プレイアブルキャラクター(NPC)、デジタルアシスタントなどに応用されることを期待している。情報提供:Engaget.