マイクロソフトとプロジェクト・グーテンベルクは、高品質な合成音声を使用して5,000冊以上の無料オーディオブックを作成するためにAI技術を使用しました。

このプロジェクトでは、機械学習、自動テキスト選択(どのテキストを音声で読むか、読まないかを選択する)の進歩、自然な音声合成システムの組み合わせが行われました。

まず、HTMLベースの電子書籍の構造を理解し、脚注、ページ番号、表などの重要でない要素と本文を区別するアルゴリズムが開発されました。

この分析に続いて、テキストを音声に変換する実際のテキスト・ツー・スピーチ(TTS)が行われました。このプロジェクトでは、WaveNet、Tacotron、FastSpeechなどが使用され、自然な人間の音声に近い結果を生成する能力があります。

さらに、チームは話者と対話の区別、さらには個々のキャラクターとその感情を認識し、生成された音声を適応させるシステムを開発しました。

このプロセスのすべては、機械学習のフレームワークであるSynapseMLで実行され、さまざまなタスクを分割して並行処理します。

チームは「このプロジェクトがオーディオブックの利用可能性とアクセシビリティを大幅に向上させる可能性があると考えています。」と述べています。Mark Twainの”How to Tell a Story, and Other Essays”の音声例を聴いてみてください。

あなたの声でオーディオブックをナレーションする

プレゼンテーション用に、チームはユーザーの声の特性をいくつかの録音されたフレーズからキャプチャし、それをオーディオブックのナレーションに転送できるテキストを音声に変換するアプローチも開発しました。

これにより、ユーザーはデジタルライブラリから本を選択し、それを自分の声で読むことができます – または、音声ファイルがあれば、選択した声で読むことも可能です。このサービスがカンファレンス以外でも利用可能になるかどうかはまだ明確ではありませんが、潜在的なコストの観点からは不可能に見えます。

総じて、プロジェクトは「クリアで一貫した声で」古典文学、演劇、伝記などに関するオーディオデータを35,000時間以上収集しました。

このデータセット自体は他のAIプロジェクトに役立つ可能性があります。研究チームはすべてのオーディオデータを制約なしのオープンソースとして提供する予定です。

オーディオブックはSpotify、Apple Podcasts、またはGoogle Podcastsで利用可能です。プロジェクトの詳細については公式ウェブサイトをご覧ください。

プロジェクト・グーテンベルクは、インターネットを通じてアクセス可能な無料のデジタルライブラリです。ボランティアによって作成されています。プロジェクトのウェブサイトでは70,000冊以上の電子書籍が無料で読むことやダウンロードすることができます。