Stability AIは、Stable Diffusionを使用して、その画像モデルにアニメーションの機能を追加しました。このビデオツールは現在、有料のAPIを通じてのみ利用可能です。
Stable Animationの開発キット、これは動く画像を作成する新しい方法として、Stability AIによって発表されました。このモデルは、3つの異なる入力タイプを受け入れます:
- テキストのプロンプトを使用して、Stable Diffusion、Midjourney、またはDALL-E 2のように;
- テキストのプロンプトとアニメーションの出発点としての画像を使用して;
- そして、テキストのプロンプトとビデオを使用して。
このソフトウェアはまだ実験的な段階にあるようです。DreamStudioやClipDropなどのブラウザを介して提供する代わりに、Stability AIはソフトウェア開発キット(SDK)と有料のAPIのみを提供しています。もちろん、これは第三者がサービスを通じてアニメーションモデルを提供するのを妨げるものではありません。
Pythonスクリプトが必要です。
Pythonスクリプトでビデオを生成する必要があるため、操作はかなり複雑です。画像モデルと同様に、多くのパラメータを設定できます。ステップ、サンプラー、スケール、またはシードなどが含まれます。また、outpaintingやプロンプトの補間などの機能も利用できます。
異なるパラメータも価格に影響を与えます。したがって、ビデオを作成するコストは一般的な答えがないため、安定化の見積もりは異なる設定で100フレームあたり3から18セントの米ドルで変動します。
Stable AnimationはStable Diffusion XLと互換性があります。
Stable Animationは、Stable Diffusionのどのバージョンとも組み合わせて使用できます。標準バージョンは1.5ですが、新しい改良版であるStable Diffusion XLを使用することもできます。さまざまなスタイルのプリセットも多数用意されており、アニメからコミック、Low Polyからピクセルアートまで幅広く対応しています。
解像度は512 x 512ピクセルで、調整なしで1024 x 1024ピクセルに拡大することもできます。また、アップスケーラーも使用できます。デフォルトでは12秒あたり72フレームですが、ドキュメンテーションによれば無限に増やすこともできるようです。
すでにStable Diffusionを基にしたアニメーションツールが存在し、プロンプトの補間によって静止画像の一連の動く画像を生成することができます。つまり、入力の特定のプロパティを連続的に変更することです。ただし、Stability AIのデモによれば、Stable Animationははるかに包括的で成熟したソリューションであることが期待されています。
ワンクリックで動画を生成することはまだできませんが、Stable Animationなどのプロジェクトは、Runway MLの進化やPhenaki、Imagen Videoなどのモデルとともに、近い将来、静止画像からGIFのようなアニメーションへ進化する視覚的生成AIの進展を示しています。