ImageBindはMetaの新しいマルチモーダルモデルで、6つの異なるデータタイプを組み合わせています。Metaはこれをオープンソースとして提供しています。

ImageBindは、テキスト以外にも、音声、ビジュアル、動きセンサー、熱、深度のデータを理解するAIモデルです。

少なくとも理論的には、これは生成型AIモデルの多目的な基盤として機能する可能性があります。例えば、これはセンサーデータと3Dデータを組み合わせて没入型仮想世界(VR)を設計したり、コンテキストに対応したデジタルデータで現実を拡張する生成型モデルの基礎として機能するかもしれません。VRとARは、Metaのメタバースの長期ビジョンにおいて重要な技術です。

novo modelo de código aberto da meta tem 6 sentidos
画像: Meta AI

他の例として、Metaは夕日のビデオに自動的に対応する音声クリップ、またはシーズーやそれに類似した犬の3Dデータを生成する画像、または品種に関するエッセイなどを挙げています。

MetaのMake-A-Videoなどのモデルで作成されたビデオの場合、ImageBindは適切なバックグラウンドサウンドを生成するのに役立つか、写真から深度データを予測するのに役立つかもしれません。

ImageBind: それを結ぶ埋め込み

AIシステムはしばしば画像、テキスト、音声など、さまざまな種類のデータ(モダリティと呼ばれる)を扱います。AIはこれらの異なるデータタイプを理解し、関連付けるために、それらを数字のリストである埋め込みと呼ばれるものに変換し、それらを共有スペースに組み合わせます。これらの埋め込みは、AIがデータに含まれる情報を認識し、それらの間に関係を確立するのに役立ちます。

ImageBindを特別なものにするのは、それがすべてのデータタイプを含む例を必要とせずに、これらの異なるデータタイプに対する共通の言語を作成することです。そのようなデータセットは高価で入手困難な場合があります。

como o modelo funciona
6つのモダリティを共通のスペースに組み込むことで、ImageBindは一緒に表示されない異なるタイプのコンテンツの交差検索を可能にします。

これは、大規模なビジュアル言語モデルを使用して達成され、画像とテキストの両方を理解するためにトレーニングされたAIモデルです。 ImageBindは、これらのモデルが新しいモダリティを処理する能力を拡張し、これらのデータタイプと画像間の自然な接続を活用して、ビデオオーディオデータや深度画像データなどの新しいモダリティを処理します。

画像データは、さまざまなモダリティ間の橋渡しとして機能します。

ImageBind: 異なるデータモダリティを統合するためのショートカット

AIシステムは、しばしば異なる種類のデータ(モダリティと呼ばれる)を扱います。これらの異なるデータタイプを認識し、関連付けるために、AIはそれらを数字のリスト(埋め込みと呼ばれる)に変換し、共有スペースに組み合わせます。これらの埋め込みは、AIがデータに含まれる情報を認識し、それらの間に関係を確立するのに役立ちます。

ImageBindを特別なものにするのは、すべてのデータタイプを含む例を必要としないで、これらの異なるデータタイプに共通の言語を作成することです。このようなデータセットは高価であるか、入手不可能です。

ImageBindは、6つのモダリティを共通のスペースに組み込むことで、通常は一緒に表示されない異なる種類のコンテンツを交差検索できるようにします。これは、画像とテキスト、音声、深度、熱、およびIMUのデータなど、6つのモダリティ間の自然な接続を活用しています。 ImageBindは、異なるモダリティをより効果的に理解し、操作するAIを可能にする共有埋め込みスペースを作成します。

ImageBindは、画像と結びついたデータがこれらの6つのモダリティを結びつけるのに十分であることを示しています。このモデルは、異なるモダリティが一緒に観察されずにリンクを見つけることを可能にし、異なるモダリティが “コミュニケーション” し、リンクを見ないで見つけることができます。例えば、ImageBindは音声とテキストを一緒に見ないで関連付けることができます。これにより、他のモデルはリソースの集中的なトレーニングなしに新しいモダリティを理解することができます。

– Meta

ImageBindは、異なるデータタイプ間の関係をより効率的に探索し、より多目的なAIモデルを開発できるようにする、AI研究者にとってのショートカットのようなものです。

将来的には、このモデルを、触覚、音声、嗅覚、さらには脳のfMRI信号など、他の感覚データを含める可能性があるとMetaは述べています。これにより、機械が多くの種類の情報から同時に、包括的で直感的に学ぶことができるようになります。

MetaはImageBindのコードをCC-BY-NC 4.0ライセンスの下でGitHubでオープンソースとして公開しており、商用利用は許可されていません。