OpenAIの「DALL-E 2」が示すAIの創造性 – 制御方法を知っていれば。2023年のDALL-E 2のショートツアー。

OpenAIのDALL-E 2は、生成的AIモデルのパイオニアであり、市場で最初に提供されたテキストから画像への変換でした。Midjourneyのような代替ツールが登場し、一般的に、より複雑でないプロンプトでより良い結果を出し、基礎となるモデルは定期的に改良されている。また、Stable DiffusionとStable Diffusion XLというオープンソースの代替製品もあります。

しかし、適切なプロンプトと、インペインティングのような特殊なアプリケーションでは、DALL-Eはまだ有用です。例:DALL-Eは、私のプロンプト「バーチャルリアリティヘッドセットを装着したギリシャの哲学者の古代像、リアル、写真、2023年」を適切な-低解像度ではあるが-画像に変換するが、Midjourneyは、はるかに高解像度の像にバーチャルリアリティヘッドセットを追加することを拒否する。

O Midjourney cria uma imagem altamente realista, mas não captura o assunto desejado.
ミッドジャーニーは非常にリアルな画像を作成するが、目的の被写体を撮影することはできない。
O DALL-E implementa o prompt, mas a qualidade não se compara ao Midjourney.
DALL-Eはプロンプトを実行するが、品質はMidjourneyの比ではない。

以下では、DALL-E 2 の機能とプロンプトエンジニアリングの基本原理を簡単に説明したいと思います。

OpenAI DALL-E 2は画像の作成、編集、修正が可能

DALL-E 2 のユーザーインターフェースはシンプルに保たれています。入力フィールドにテキスト画像コマンド、いわゆる “プロンプト “を入力し、”Generate “を押して AI システムに送信します。しばらく待つと、生成された4つの画像が表示される。

Gerar imagens de IA é simples: você coloca texto em um campo de texto. A entrada pode ser curta ou detalhada. Seu prompt tem um forte impacto na saída.
AI画像の生成は簡単で、テキストフィールドにテキストを入力するだけです。入力は短くても詳しくてもよい。プロンプトは出力に強い影響を与えます。

入力フィールドの下には、実在の人物でない限り、自分の画像をアップロードすることもできる。アップロードされた画像と新しく作成された画像から、DALL-E 2 はバリアントを生成することができます。これにより、既存のテーマからインスピレーションを得た画像を比較的簡単に作成し、さらに編集することができます。このようにして、AIシステムはさらに精密に制御できる。

Um clique em uma imagem abre a visualização detalhada. Aqui, variações podem ser criadas ou a imagem pode ser editada.
画像をクリックすると、詳細なビジュアライゼーションが開きます。ここで、バリエーションを作成したり、画像を編集したりすることができる。

さらに、編集機能を使用して画像上の領域をマークし、DALL-E 2で変更することができます。

A área a ser editada pode ser marcada com um pincel.
編集する領域はブラシでマークすることができます。

DALL-E 2 は、対応する変更を含む元の画像の 3 つのバリアントを生成します。ここでは、彫像にエレガントな口ひげを追加しました。

Um bigode para um filósofo grego? Sem problema para o DALL-E 2.
ギリシャの哲学者に口ひげ?DALL-E 2 では問題ありません。

OpenAI DALL-E 2とプロンプトエンジニアリング

バーチャルリアリティの先駆者であるギリシャの古代像の例からすでに明らかなように、DALL-E 2はテキスト入力で操作することができます。オープンAIは、6億5千万枚以上の画像でAIシステムを訓練してきたため、ダレノガレ2は数え切れないほどのテーマ、スタイル、露出、その他の画像特性を見て、再現することができる。

いわゆるプロンプトエンジニアリング(適切なテキスト記述の設計)を使って、DALL-E 2は、例えば、小さな焦点距離やモーションブラーをシミュレートするために、異なるレンズ仕様で写実的な画像を生成することができます。

O DALL-E 2 pode reproduzir o estilo de imagem de diferentes câmeras, aqui o estilo Polaroid.
DALL-E 2 は、異なるカメラのイメージスタイル(ここではポラロイドスタイル)を再現することができます。

適切な描写により、感情を捉えたり、構造やプロポーションを定義したり、スチームパンクやサイバーパンクなどのスタイルを再現したり、カメラアングルや露出を決定したり、テレビシリーズや映画のデザインをモデルとして使用したりすることが可能です。

DALL-E 2は、3Dアートや歴史的な絵画と同様に、数多くのイラストスタイルを模倣することができます。このスタイルを模倣する能力は、多様な芸術スタイル、個々のアーティストや特定の作品に対してもダルイー2によって発揮されます。

Graças ao extenso treinamento, o DALL-E 2 também pode reproduzir estilos como o steampunk.
スチームパンクのようなスタイルも再現することができます。
O DALL-E 2 também pode imitar o estilo de artistas individuais ou pinturas específicas.
DALL-E 2は、個々のアーティストや特定の絵画のスタイルを模倣することもできます。

いわゆるアンバンドリングで、ChatGPTやGPT-4などのモデルに絵画の特徴やスタイルを説明してもらうことができます。AIの応答は、プロンプトエンジニアリングに使用することができます。

刺繍から彫像、遺体、ぬいぐるみ、建築物、デザイナーズチェアまで、あらゆるものが用意されている。

Meio cachorro, meio Jedi, meio filósofo grego - o DALL-E 2 impressiona com interpretações significativas.
半分犬、半分ジェダイ、半分ギリシャの哲学者 – DALL-E 2は意味深い解釈で感動を与えます。

ダルイー2:プロンプト・エンジニアリングの6つのヒント

プロンプトの側面説明
正確さ例:「雪の森で遊ぶ白いハスキー」。
形容詞と副詞形容詞や副詞を加えて、より詳しく説明する。
創造性例えば、”a dog made of clouds”(雲でできた犬)など。
比較例えば、「熟したバナナのように黄色い家」など。
文脈画像がどのような文脈で使用されるかを考えましょう。例えば、子供向けの本のためのカラフルな蝶の写真など。
簡潔さプロンプトは簡潔にし、1つか2つの主要な要素、例えば主人公と設定に焦点を当てましょう。

DALL-E 2: 外部画像の編集とアウトペイント

すでに紹介した編集機能を使えば、画像の細部を変更することができます。例えば、口ひげを追加したり、オブジェクトや背景全体を置き換えたりすることができます。

生成された画像はダウンロードすることもできますので、外部の画像編集プログラムを使用することで、DALL-E 2をさらに活用することができます。最もシンプルなバージョンでは、ギリシャの哲学者の彫像を縮小し、新しい画像のベースとして使用することができます。

Com truques simples, as imagens podem ser editadas ainda mais. Aqui, por exemplo, você pode gerar uma estátua para combinar com a cabeça.
簡単なトリックで、画像をさらに編集することができます。例えば、頭部にマッチする彫像を生成することができます。

絵画も同じ方法で追加できる。DALL-E 2はモナ・リザに胴体を与えることができ、ギリシャのバーチャルリアリティの哲学者は仲間になる。

O DALL-E 2 adiciona o torso e o ambiente ao filósofo de realidade virtual, combinando com o estilo desejado. Com ajustes adicionais, os resultados podem ser refinados ainda mais.
DALL-E 2 はバーチャルリアリティの哲学者に胴体と環境を追加し、希望するスタイルに合わせます。さらに調整を加えれば、結果はさらに洗練される。

このプロセスを何度か繰り返すと、さらにズームインすることができます。すでに何人かのアーティストは、DALL-E 2の世界や巨大な壁画を通る印象的な旅を作り出しています。

外部画像処理、インテリジェント・プロンプト・エンジニアリング、DALL-E 2 の編集機能を組み合わせることで、他にも様々な応用が可能です。

より深く掘り下げたい場合は、Guy Parsons 氏の DALL-E 2 Prompts Book をご覧ください。この本には、これまでに発見されたプロンプト・エンジニアリングのヒントの多くと、DALL-E 2を最大限に活用するための追加メソッドが包括的に紹介されています。これらのヒントの多くは、MidjourneyやStable Diffusionにも応用することができます。

DALL-E 3に関しては、まだはっきりしたことは分かりませんが、OpenAIは一貫性モデルのような生成AIモデルの代替アーキテクチャをすでに研究しています。