マイクロソフトの研究者が、テキスト、画像、動画、音声など複数のモダリティのコンテンツを同時に処理・生成できる、コンポーザブル拡散を備えたAIモデル「CoDi」を発表した。

CoDi(Composable Diffusion)は、統合的でコンポーザブルなマルチモーダルAIの開発を目指すマイクロソフトのi-Codeプロジェクトによって発表された。これは、テキスト、画像、動画、音声など複数のモダリティのコンテンツを同時に処理・生成できるマルチモーダルAIモデルである。このモデルは、特定の入力モダリティに限定された従来の生成AIシステムとは異なる。

現在のほとんどのモダリティの組み合わせのトレーニングデータセットが乏しいため、研究者たちは、入力と出力の両方の空間でモダリティを一致させるアラインメント戦略を利用した。その結果、CoDiはどのような入力の組み合わせでも条件付けでき、訓練データに存在しないモダリティであっても、どのようなモダリティのセットでも生成できるようになった。

クロスモダリティAI開発の課題

従来の単一モダリティAIモデルの限界に対処することで、CoDiは、モダリティ固有の生成モデルを組み合わせるという、しばしば複雑で時間のかかるプロセスに対する解決策を提供します。

この新しいモデルは、放送プロセスにおけるアライメントを橋渡しし、時間的にアライメントされたビデオとオーディオのような、絡み合ったモダリティの同期生成を容易にする、ユニークなコンポーザブル生成ストラテジーを使用しています。

ビデオマイクロソフト

CoDiのトレーニングプロセスにも特徴がある。画像、映像、音声、言語などの入力モダリティを共通の意味空間に投影する。これにより、マルチモーダル入力の柔軟な処理が可能になり、クロスアテンションモジュールと環境エンコーダーにより、あらゆる出力モダリティの組み合わせを同時に生成することができる。

“スケートボードに乗ったテディベア、4K、高解像度”

研究者は、CoDiの能力の例を示し、別々のテキスト、オーディオ、画像プロンプトから同期したビデオとオーディオを生成する能力を実証している。ある例では、”teddy bear on a skateboard, 4k, high resolution “というテキスト、タイムズスクエアの画像、雨音が入力された。

CoDiは、タイムズスクエアの雨の中でスケートボードをするテディベアの短いビデオを低画質ながら生成し、雨音とストリートノイズを同期させました。

CoDiの潜在的な用途は数多くある。研究者たちは、教育や障害者のアクセシビリティといった分野での可能性を強調している。

我々の研究は、より魅力的で全体的な人間とコンピュータの相互作用に向けた重要な一歩であり、生成人工知能における将来の研究のための強固な基礎を築くものである。

記事より

The Decoderからのコンテンツです。