テキストをビデオに変換するシステムは、書かれた文字をダイナミックなビジュアルに変える。現在、Zeroscopeはこの技術をフリー・ソフトウェアとして提供している。

ZeroscopeはModelscope(デモ)から派生したもので、17億のパラメーターを持つマルチレベルのテキストからビデオへの拡散モデルである。これは、テキスト記述に基づいてビデオ・コンテンツを生成する。Zeroscopeは、シャッターストックのウォーターマークなしで、16:9のアスペクト比に近い高解像度を提供することで、このコンセプトを強化している。

Zeroscopeには2つのコンポーネントがあります:Zeroscope_v2 567wは、ビデオのコンセプトを探求するために576×320ピクセルの解像度で高速コンテンツ作成用に設計されています。高品質のビデオは、zeroscope_v2 XLを使用して、1024×576の「高解像度」にアップスケールすることができます。以下のデモビデオの音楽は、ポストプロダクションで追加されました。

ビデオゼロスコープXL

ビデオ生成には、解像度576×320ピクセル、フレームレート30/秒で7.9GBのVRamと、解像度1024×576ピクセル、同じフレームレートで15.3GBのVRamが必要です。つまり、小さい方のモデルは、多くの標準的なグラフィックカードで動作するはずだ。

Zeroscopeのトレーニングでは、9,923のクリップと29,769のラベル付きフレームに変位ノイズを導入しました。変位ノイズは、ビデオフレーム内のオブジェクトのランダムな変化、フレーム時間の小さな変化、または最小限の歪みを含むことができる。

このようにトレーニング中にノイズを導入することで、データの分布に対するモデルの理解が向上する。その結果、モデルはより多様でリアルなビデオを生成し、テキスト記述のバリエーションをより効果的に解釈することができる。

これはオープンソースで『ランウェイ』に対抗できるのだろうか?

Modelscopeの使用経験があるZeroscope開発者 “Cerspense “によれば、24GBのVRamでモデルを調整するのは「それほど難しくない」。彼は微調整の過程でModelscopeの透かしを消しました。

彼は自身のモデルを「Runway MLが提供する商用テキスト・トゥ・ビデオモデルである “Generation 2 “と競合するように設計されている」と説明する。Cerspenseによると、Zeroscopeは完全に無料で公開されている。

アーティストでありAI開発者でもある“dotsimulate“は、ZeroscopeXLによって生成されたビデオの例を以下のビデオで紹介している。

567wと Zeroscope v2 XLはどちらもHugging Faceから無料でダウンロードでき、使い方も説明されている。チュートリアルを含むColabのZeroscopeのバージョンはこちらで入手できる

テキストからビデオへの技術は、テキストから画像への技術のように急速に進化するのでしょうか?

テキストからビデオへの技術はまだ初期段階にある。AIが生成した動画は数秒しかないことが多く、視覚的に不完全な部分がいくつかある。しかし、画像AIモデルも当初は同様の問題に直面したが、数カ月でフォトリアリズムを達成した。しかし、動画生成は、学習と生成の両方で、より多くのリソースを必要とする。

グーグルはすでにPhenakiとImagen Videoを発表している。PhenakiとImagen Videoは、より長く、論理的にまとまった高解像度のクリップを生成できるテキストから動画へのテンプレートであるが、まだリリースされていない。MetaのMake-a-Videoもテキストから動画に変換するテンプレートだが、まだリリースされていない。

現在市販されているのはRunwayのGen-2のみで、iPhoneでも利用できるようになった。Zeroscopeは、初の高品質なオープンソーステンプレートの登場を意味する。