Stability AIは、旧バージョンよりも画像のディテールと構図を大幅に改善した先進の画像処理モデルSDXL 0.9を発表した。SDXL0.9は、前バージョンと比較して画像のディテールと構図が大幅に改善されており、AIが生成した画像をさまざまな業界で実用化できるほど大幅に改善されている。
SDXL 0.9のリリースにより、Stability AIは、さまざまなクリエイティブ用途や産業用途向けの超リアルな画像の生成において「飛躍的な進歩」を遂げました。同社によると、旧モデルと比較して、新モデルは画像のディテールと構図が大幅に改善されているという。
ClipDropからアクセス可能で、APIは近日公開予定。このモデルが1.0バージョンに近づくにつれ、ユーザーは7月中旬の調査用ウェイトのオープンリリースを期待できる。
SDXL 0.9は、映画、テレビ、音楽、教育用ビデオ、デザイン、産業用アプリケーションのための超現実的な作品など、AIが生成した画像の創造的な使用例を幅広く提供する。Stability AI社によると、これらの機能により、同社の最新モデルはAI画像処理の実世界アプリケーションの最前線に位置づけられるという。
画像処理以外の機能
SDXL 0.9では、基本的なテキストプロンプトに加え、画像間のプロンプト(画像を挿入してバリエーションを得る)、インペインティング(画像内の欠落部分の再構築)、アウトペインティング(既存画像のシームレスな拡張)など、多くの機能が提供されています。
SDXL 0.9では合成機能が強化され、以前のベータバージョンと比較してパラメータの数が大幅に増えました。パラメータはニューラルネットワークのすべての重みとバイアスの合計を表し、このモデルは35億パラメータのベースモデルと、66億パラメータのモデルアンサンブルパイプラインを備えています。一方、ベータ版では31億パラメータのモデルしか使用していない。
SDXL 0.9では、1024×1024の解像度でより奥行きのあるリアルな画像を生成するために、これまでで最大のOpenCLIPモデル(OpenCLIP ViT-G/14)を含む2つのCLIPモデルを使用しています。
民生用ハードウェアでのアクセシビリティとパフォーマンス
SDXL 0.9は、その高度な機能とモデルアーキテクチャにもかかわらず、Windows 10または11、Linuxオペレーティングシステム、16 GBのRAM、および8 GB以上のVRAMを搭載したNvidia GeForce RTX 20(または同等の)グラフィックカードを必要とするだけで、最新のコンシューマー向けGPUで実行できます。Linuxユーザーは、16GBのVRAMを搭載した互換性のあるAMDカードを利用できる。
4月13日のベータ版開始以来、SDXLは70万枚以上の画像を生成し、Discordコミュニティの「約7,000人」のユーザーから「素晴らしい反応」を得ている。このプラットフォームでは定期的に「クラッシュ」が開催され、54,000枚の画像が投稿され、3,521枚のSDXL画像が勝者となりました。
提供状況と今後の計画
SDXL 0.9は、Stability AIのClipDropプラットフォームで入手可能です。APIおよびDreamStudioユーザーは、6月26日からアクセスできます。オープンソース版を実行するためのコードは、後日GitHubを通じて公開される予定です。SDXL 1.0フルモデルのオープンソースリリースは7月中旬を予定しています。
現在、SDXL 0.9は研究専用の非商用ライセンスでリリースされており、研究者はモデルへのアクセスをリクエストすることができる。