Nvidiaは、Stable Diffusionをtext-to-videoモデルに変換し、高解像度ビデオを生成し、モデルをどのようにカスタマイズできるかを示します。

Nvidiaの生成的AIモデルは拡散モデルをベースにしており、時間的な次元を追加することで、数フレームにわたって時間的に整列した画像を合成することができる。チームはビデオモデルを訓練して、512×1,024ピクセルの解像度で数分間の自動車乗車映像を生成し、ほとんどのベンチマークでSOTAを達成した。

自律走行研究に特に関連するこのデモンストレーションに加えて、研究者たちは、既存の安定拡散モデルをビデオモデルに変換する方法を示している。

動画エヌビディア

Nvidia、安定拡散モデルをテキストから動画へ変換

これを実現するために、研究チームは、微調整のステップで、安定拡散をビデオデータで短時間訓練し、その後、ネットワーク内の既存の各空間レイヤーの後ろに追加の時間レイヤーを追加し、同様にビデオデータで訓練する。さらにチームは、テキストプロンプトから生成された1,280×2,048解像度の動画を生成するために、時間的に安定したアップスケーラーを訓練する。

ビデオNvidia
ビデオエヌビディア

安定拡散をビデオモデルの基礎とすることで、チームはゼロから新しいモデルを訓練する必要がなく、既存のリソースや手法の恩恵を受けることができる。例えば、使用されたWebVid-10Mデータセットには実世界の動画しか含まれていないが、基礎となる安定拡散モデルのおかげで、モデルは芸術動画も生成できる。すべての動画の長さは3.8秒から4.7秒で、フレームレートに依存します。

安定拡散ビデオはDreamboothでカスタマイズ可能

動画モデルの基礎として安定拡散を使用することで、チームはゼロから新しいモデルをトレーニングする必要はなく、既存のスキルや手法を活用することができます。たとえば、使用されたWebVid-10Mデータセットには実世界の動画が含まれていますが、基礎となるStable Diffusionモデルのおかげで、このモデルはアート動画も生成できます。すべての動画の長さは、フレームレートに応じて3.8秒から4.7秒である。

Nvidiaチームは、Dreamboothが動画に特化したStable Diffusionモデルとも連携し、元の学習データには含まれていないオブジェクトを含む動画を生成することを示している。これは、DreamBoothを使用してビデオコンテンツをパーソナライズできるコンテンツ制作者に新たな可能性を開くものである。

動画Nvidia
チームは、Dreamboothを通じて猫をモデルに預けた。 ビデオ:NvidiaNvidia

Nvidia Video LDMプロジェクトのページには、さらに多くの例が掲載されている。モデルは公開されていないが、この記事の著者の一人は、Stable DiffusionとStability AIの開発者の一人であるRobin Rombach氏である。そのため、近いうちにオープンソースの実装が見られるかもしれない。