OpenAIの「DALL-E 2」が示すAIの創造性 – 制御方法を知っていれば。2023年のDALL-E 2のショートツアー。
OpenAIのDALL-E 2は、生成的AIモデルのパイオニアであり、市場で最初に提供されたテキストから画像への変換でした。Midjourneyのような代替ツールが登場し、一般的に、より複雑でないプロンプトでより良い結果を出し、基礎となるモデルは定期的に改良されている。また、Stable DiffusionとStable Diffusion XLというオープンソースの代替製品もあります。
しかし、適切なプロンプトと、インペインティングのような特殊なアプリケーションでは、DALL-Eはまだ有用です。例:DALL-Eは、私のプロンプト「バーチャルリアリティヘッドセットを装着したギリシャの哲学者の古代像、リアル、写真、2023年」を適切な-低解像度ではあるが-画像に変換するが、Midjourneyは、はるかに高解像度の像にバーチャルリアリティヘッドセットを追加することを拒否する。


以下では、DALL-E 2 の機能とプロンプトエンジニアリングの基本原理を簡単に説明したいと思います。
OpenAI DALL-E 2は画像の作成、編集、修正が可能
DALL-E 2 のユーザーインターフェースはシンプルに保たれています。入力フィールドにテキスト画像コマンド、いわゆる “プロンプト “を入力し、”Generate “を押して AI システムに送信します。しばらく待つと、生成された4つの画像が表示される。

入力フィールドの下には、実在の人物でない限り、自分の画像をアップロードすることもできる。アップロードされた画像と新しく作成された画像から、DALL-E 2 はバリアントを生成することができます。これにより、既存のテーマからインスピレーションを得た画像を比較的簡単に作成し、さらに編集することができます。このようにして、AIシステムはさらに精密に制御できる。

さらに、編集機能を使用して画像上の領域をマークし、DALL-E 2で変更することができます。

DALL-E 2 は、対応する変更を含む元の画像の 3 つのバリアントを生成します。ここでは、彫像にエレガントな口ひげを追加しました。

OpenAI DALL-E 2とプロンプトエンジニアリング
バーチャルリアリティの先駆者であるギリシャの古代像の例からすでに明らかなように、DALL-E 2はテキスト入力で操作することができます。オープンAIは、6億5千万枚以上の画像でAIシステムを訓練してきたため、ダレノガレ2は数え切れないほどのテーマ、スタイル、露出、その他の画像特性を見て、再現することができる。
いわゆるプロンプトエンジニアリング(適切なテキスト記述の設計)を使って、DALL-E 2は、例えば、小さな焦点距離やモーションブラーをシミュレートするために、異なるレンズ仕様で写実的な画像を生成することができます。

適切な描写により、感情を捉えたり、構造やプロポーションを定義したり、スチームパンクやサイバーパンクなどのスタイルを再現したり、カメラアングルや露出を決定したり、テレビシリーズや映画のデザインをモデルとして使用したりすることが可能です。
DALL-E 2は、3Dアートや歴史的な絵画と同様に、数多くのイラストスタイルを模倣することができます。このスタイルを模倣する能力は、多様な芸術スタイル、個々のアーティストや特定の作品に対してもダルイー2によって発揮されます。


いわゆるアンバンドリングで、ChatGPTやGPT-4などのモデルに絵画の特徴やスタイルを説明してもらうことができます。AIの応答は、プロンプトエンジニアリングに使用することができます。
刺繍から彫像、遺体、ぬいぐるみ、建築物、デザイナーズチェアまで、あらゆるものが用意されている。

ダルイー2:プロンプト・エンジニアリングの6つのヒント
プロンプトの側面 | 説明 |
---|---|
正確さ | 例:「雪の森で遊ぶ白いハスキー」。 |
形容詞と副詞 | 形容詞や副詞を加えて、より詳しく説明する。 |
創造性 | 例えば、”a dog made of clouds”(雲でできた犬)など。 |
比較 | 例えば、「熟したバナナのように黄色い家」など。 |
文脈 | 画像がどのような文脈で使用されるかを考えましょう。例えば、子供向けの本のためのカラフルな蝶の写真など。 |
簡潔さ | プロンプトは簡潔にし、1つか2つの主要な要素、例えば主人公と設定に焦点を当てましょう。 |
DALL-E 2: 外部画像の編集とアウトペイント
すでに紹介した編集機能を使えば、画像の細部を変更することができます。例えば、口ひげを追加したり、オブジェクトや背景全体を置き換えたりすることができます。
生成された画像はダウンロードすることもできますので、外部の画像編集プログラムを使用することで、DALL-E 2をさらに活用することができます。最もシンプルなバージョンでは、ギリシャの哲学者の彫像を縮小し、新しい画像のベースとして使用することができます。

絵画も同じ方法で追加できる。DALL-E 2はモナ・リザに胴体を与えることができ、ギリシャのバーチャルリアリティの哲学者は仲間になる。

このプロセスを何度か繰り返すと、さらにズームインすることができます。すでに何人かのアーティストは、DALL-E 2の世界や巨大な壁画を通る印象的な旅を作り出しています。
Worlds Within Worlds #aiart #dalle2 #aianimation #animation #dalle #infinitezoom #loop #fantasy #scifi pic.twitter.com/LB8eo2GZof
— Michael Carychao (@MichaelCarychao) May 22, 2022
Inpainting with DALL·E 2 is super fun. With some ingenuity, you can create arbitrarily large artwork like the murals shown below – which I assume are the largest #dalle-produced images created so far. pic.twitter.com/DDQUMSmgYq
— David Schnurr (@_dschnurr) April 19, 2022
外部画像処理、インテリジェント・プロンプト・エンジニアリング、DALL-E 2 の編集機能を組み合わせることで、他にも様々な応用が可能です。
より深く掘り下げたい場合は、Guy Parsons 氏の DALL-E 2 Prompts Book をご覧ください。この本には、これまでに発見されたプロンプト・エンジニアリングのヒントの多くと、DALL-E 2を最大限に活用するための追加メソッドが包括的に紹介されています。これらのヒントの多くは、MidjourneyやStable Diffusionにも応用することができます。
DALL-E 3に関しては、まだはっきりしたことは分かりませんが、OpenAIは一貫性モデルのような生成AIモデルの代替アーキテクチャをすでに研究しています。