メタ社の最新の画像モデルCM3leonは、テキストと画像の両方を理解し、生成することができる。テキスト記述から画像を作成し、画像に基づいてテキストを構成することができるため、さまざまなタスクに役立ちます。

CM3leon(「カメレオン」と発音)は、テキストから画像、画像からテキストの両方を生成できる単一のベースモデルです。CM3leonは、テキストと画像の両方を受信して生成できる、テキストのみの言語モデルを応用したアプローチで学習された最初のマルチモーダルモデルである。

CM3leonのアーキテクチャは、テキストベースのモデルと同様に、デコードのみにトークナイザーベースの変換ネットワークを利用する。RA-CM3は、学習時に外部データベースを利用することで、以前の研究(RA-CM3)をベースにしている。他のモデルが与えられた生データからしか学習できないのに対し、検索オーグメンテーション・モデルは、学習プロセスにおいて最も関連性の高い多様なデータを学習中に積極的に探し出すため、学習段階がよりロバストかつ効率的になる。

メタ社は、このモデルは従来の変換ベースの手法よりも5倍少ない計算能力と少ない学習データで済み、既存の拡散ベースのモデルと同じくらい効率的に学習できると主張している。

マルチタスク・カメレオン

大規模なマルチタスク命令チューニングにより、CM3leonは、テキスト駆動型画像生成・編集、テキストから画像への生成、テキスト駆動型画像編集、キャプション生成、視覚的質問応答、構造駆動型画像編集など、さまざまなタスクを実行できる。

“指示に合わせる “とは、モデルがテキスト形式で提供される指示に従うように訓練されていることを意味します。例えば、「海に沈む夕日の写真を描写してください」といった指示を与えると、AIモデルはその指示に基づいて描写を生成する。このモデルは、上記のタスクのいくつかの例で学習された。

exemplo do novo modelo de imagens da Meta CM3leon
(1) サハラ砂漠で麦わら帽子をかぶり、ネオンのサングラスをかけた小さなサボテン。
(2) 人間の手のクローズアップ写真、手のモデル。高画質。
(3) 侍の刀で壮大な戦いの準備をするアニメのアライグマの主人公。戦闘姿勢。ファンタジー、イラスト。
(4) “1991 “と書かれたファンタジー風の停車標識

Metaはまた、テキストのみのモデルのために開発されたレシピをスケールアップすることは、トークン化ベースの画像生成モデルに直接一般化し、より大きなモデルで、より長い時間、より多くのデータで訓練することで、さらに良い結果を意味するとしている。CM3leonの訓練には、膨大なデータに対するブースティング回復を伴う大規模な事前訓練段階が含まれ、その後、マルチタスク能力を得るための指示を伴う教師あり微調整(SFT)段階を経た。

イメージングベンチマーク(事前学習なしのMS-COCO)において、CM3leonは4.88のFréchet Inception Distance (FID)スコアを達成し、これは新しい最先端の結果であり、GoogleのPartiイメージングモデルを凌駕しています。

一貫性、ライセンス、メタバースが向上

Metaによると、CM3leonは、複雑な入力命令にもよく追従するコヒーレントな画像を生成することに優れている。CM3leonは、グローバルな形状や局所的なディテールをよりよく復元し、テキストや数字を刺激に現れるように生成し、InstructPix2Pixのような特殊なモデルを必要としていたテキスト駆動型の画像編集などのタスクを解決することができる。

O modelo de imagem da Meta pode editar imagens com base em instruções de texto. | Imagem: Meta
Metaの画像テンプレートは、テキストの指示に基づいて画像を編集することができる。 画像:Meta

また、画像に詳細なキャプションを書き込むことも可能で、いわばインストラクションとは逆に、後で画像の作成や編集、あるいは合成学習データセットの作成に使用することができる。Metaは、CM3leonは、より少ないテキスト(30億テキストトークン)で訓練されたにもかかわらず、テキストタスクではFlamingoとOpenFlamingoに匹敵するか、それを上回ると主張している。

O CM3leon também pode ler imagens e criar legendas para elas, que podem ser usadas posteriormente como estímulos ou para treinamento adicional. | Imagem: Meta
CM3leonは画像を読み取り、キャプションを作成することもできる。

特筆すべきは、このモデルは「ライセンスされた画像とテキストデータのみを含む、Shutterstockからの新しい大規模データセット」で訓練されたものであるが、それでも他のモデルと比較して非常に競争力があるとMetaは主張している。

「その結果、パフォーマンスを犠牲にすることなく、画像の所有権や帰属に関する懸念を回避することができる」と彼らは書いている。

メタ社によれば、CM3leonは忠実度の高い画像生成と理解への一歩であり、マルチモーダル言語モデルへの道を開くものだという。CM3leonのようなモデルは、”最終的にはメタバースにおける創造性とより良いアプリケーションを促進するのに役立つだろう “と述べている。情報提供:The Decoder