Snapchatの研究者は、スマートフォンでのAI画像処理の新しい方法を開発した。これにより、ユーザーは本来必要なハードウェアを省くことができ、より高いプライバシーを享受できるようになるはずだ。
Midjourney 5.1、Stable Diffusion XL、Adobe Fireflyといった最近の画像処理AIのバージョンは、生成されるグラフィックの質を新たなレベルに引き上げている。しかし、これらのモデルには、非常に大規模で複雑なネットワーク・アーキテクチャを持つため、計算負荷が高く、処理速度が遅いという、紛れもない欠点もあります。
これらのモデルを大規模に実行するには、高性能のGPUとクラウドベースの推論が必要だが、これは高価であり、プライバシーの問題を引き起こす。スナップチャットの親会社であるスナップ社とノースイースタン大学の研究者は現在、SnapFusionのデモを行っている。このモデルは、スマートフォン上で拡散モデルを2秒未満で実行した最初のモデルと言われている。
チップメーカーのクアルコムは2月、スマートフォン上でAI画像を15秒以内に生成できることを実証したが、SnapFusionは、少なくともiPhone 14 Pro上ではもっと速く動作する。
Stable Diffusion v1.5と同等の画像
より効率的なネットワーク・アーキテクチャを導入し、推論ステップを減らすことで、SnapFusionは入力テキストから512×512ピクセルの画像を短時間で生成し、Stable Diffusion v1.5の品質に近づけたという。そのために必要なノイズ除去ステップは、クアルコムの方式が20ステップであるのに対し、SnapFusionはわずか8ステップである。
研究チームが公開したデモビデオでは、SnapFusionがAppleのこれまでで最もパワフルなスマートフォンであるiPhone 14 Proで実際に動作している様子が紹介されている。クアルコムの方式はこれまで、最新の高性能チップであるSnapdragon 8 Gen 2でのみ可能だった。
「私たちの研究は、強力なテキストから画像への拡散モデルをユーザーの手に届けることで、コンテンツ制作を民主化するものです」と研究者は述べ、このプロジェクトに取り組んだ動機を説明している。しかし、SnapFusionは完璧とは言い難い。
研究者たちによると、このモデルにはまだ比較的多くのパラメータがあるという。さらに近い将来、この技術をiPhone 14 Pro以外のより多くのスマートフォンで動作させ、より多くの人々が利用できるようにするための作業が必要になるだろう。
SnapchatはすでにジェネレーティブAIの経験を持っているが、パーソナル・チャットボット「My AI」を使ったテキスト分野での経験が多い。