ニュース, 人工知能

人工知能革命：半身不随の女性がデジタルアバターを通して「話す

更新しました 28/08/2023

コミュニティの一員になる

メーリングリストに参加して限定コンテンツを受け取りましょう

要約：研究者らは、麻痺のある女性がデジタルアバターを通じてコミュニケーションできる画期的なブレイン・コンピューター・インターフェースを開発した。この画期的な技術は、脳の信号から直接音声や表情を合成した初めての例である。

このシステムは、既存の技術を凌駕する毎分ほぼ80語という驚異的な速度で、これらの信号をテキストに変換することができる。この研究は、麻痺患者の完全なコミュニケーション回復に向けた大きな飛躍を意味する。

重要なデータ

開発されたBCIは、脳信号を音声と合成された表情にデコードし、麻痺のある人々がより自然なコミュニケーションをとることを可能にする。
単語全体を認識する代わりに、音声の下位単位である音素を識別し、スピードと精度を向上させる。
デジタルアバターの声は、負傷前のユーザーの声を反映するようにカスタマイズされ、顔のアニメーションは、様々な表情の脳信号を解釈するソフトウェアによって制御された。

出典：UCSF

カリフォルニア大学サンフランシスコ校（UCSF）とカリフォルニア大学バークレー校の研究者らは、脳幹の脳卒中による重度の麻痺を持つ女性が、デジタルアバターを通じて会話できるようにするブレイン・コンピュータ・インターフェイス（BCI）を開発した。

脳の信号から音声と表情の両方を合成したのは初めてのことである。このシステムはまた、これらの信号を1分間にほぼ80語の速度でテキストにデコードすることが可能であり、市販されている技術よりも大幅に改善されている。

脳コンピューター・インターフェース（BCI）として知られる技術を10年以上研究してきたUCSFの神経外科会長エドワード・チャン医学博士は、2023年8月23日に『ネイチャー』誌に発表されたこの最新の研究が、近い将来、脳信号から発話を可能にするFDA認可のシステムにつながることを期待している。

「UCSFのワイル神経科学研究所のメンバーであり、精神医学のジャンヌ・ロバートソン特別教授であるチャン氏は、「私たちの目標は、完全な、体現されたコミュニケーション方法を回復することです。

「これらの進歩は、患者にとって現実的な解決策となることに大きく近づいたのです」。

チャンのチームは、何年も前に脳幹部の脳卒中を起こした男性において、脳信号を文字に解読することが可能であることを実証したことがある。今回の研究は、より野心的なものである。会話中に人の顔を動かす動きとともに、豊かな音声の脳信号を解読することを実証したのである。

チャンは、253個の電極からなる非常に薄い長方形を女性の脳の表面に埋め込んだ。この電極は、脳卒中がなければ彼女の舌、顎、喉頭、そして顔の筋肉に届いていたであろう脳信号を遮断した。彼女の頭のポートに接続されたケーブルが、電極とコンピュータのバンクをつないだ。

数週間にわたり、参加者はチームと協力してシステムの人工知能アルゴリズムを訓練し、彼女特有の脳信号を認識して発話できるようにした。これは、1,024語からなる会話語彙の中から、コンピュータがその音に関連する脳活動のパターンを認識するまで、異なるフレーズを何度も繰り返すというものであった。

研究者たちは、単語全体を認識するようにAIを訓練する代わりに、音素から単語を解読するシステムを作った。音素とは、文字が書き言葉を形成するのと同じように、話し言葉を形成する音声の部分集合である。例えば、”Hello “には、”HH”、”AH”、”L”、”OW “の4つの音素が含まれている。

このアプローチを使えば、コンピューターは英語の単語を解読するのに39の音素を学習するだけで済む。これにより、システムの精度が向上し、処理速度も3倍速くなった。

「UCバークレーとUCSFの共同バイオエンジニアリング・プログラムの大学院生であるアレックス・シルバと共にテキスト・デコーダーを開発したショーン・メッツガーは言う。”それは、時間をかけて、私たちとほとんど同じように素早くコミュニケーションをとり、より自然で普通の会話をする可能性をユーザーに与えるものです”

音声を作成するために、チームは音声を合成するアルゴリズムを開発し、結婚式で彼女が話した録音を使用して、負傷前の彼女の声に似せるようにパーソナライズした。

研究チームは、AIベースのフェイシャルアニメーションを制作する企業Speech Graphics社が開発した、顔の筋肉の動きをシミュレートしてアニメーション化するソフトウェアの助けを借りて、アバターをアニメーション化した。

研究者たちは、この会社のソフトウェアが、女性が話そうとしているときに脳から送られる信号に接続し、その信号をアバターの顔の動きに変換できるように、カスタマイズされた機械学習プロセスを作成した。

「我々は、脳卒中によって中断された脳と声道との間の接続を補っているのです」と、チャンとカリフォルニア大学バークレー校の電気工学・コンピューターサイエンス教授であるゴパラ・アヌマンチパリ博士と共同研究している大学院生、ケイロ・リトルジョンは言う。

「被験者が初めてこのシステムを使って話し、アバターの顔を動かしたとき、これは本当にインパクトのあるものだと思いました。

チームにとって重要な次のステップは、ユーザーをBCIに物理的に接続する必要のないワイヤレスバージョンを作ることである。

「この技術によって、人々が自分のコンピューターや携帯電話を自由に操作できるようになれば、彼らの自立や社会的交流に大きな影響を与えるでしょう」と、共同筆頭著者である神経外科助教授のデイビッド・モーゼス博士は語った。

著者：UCSFのRan Wang、Maximilian Dougherty、Jessie Liu、Delyn Tu-Chan、Karunesh Ganguly、UC BerkeleyのPeter Wu、Inga Zhuravleva、Speech GraphicsのMichael Berger。

資金提供：本研究は、米国国立衛生研究所（NINDS 5U01DC018671、T32GM007618）、全米科学財団、および篤志家の寄付による支援を受けている。神経科学ニュースより

André Lug

Iglu Online の創設者であり、ブログのライターである André Lug。人工知能とコンテンツ作成のスペシャリストとして、彼は AI、生産性、起業家精神に関するコンテンツを提供しています。

コメントを残すコメントをキャンセル

ニュースレターを購読する