ステイブル・ディフュージョンやGPT-4の創造力はよく知られている。しかし、複雑なストーリーに必要な一貫性が欠けている。SHOW-1はそれを変えることを目的としている。
AI企業のFable Studioは、いくつかのテンプレートを組み合わせて、SHOW-1と呼ばれる新しいテンプレートを開発した。SHOW-1は、シリーズの一貫したエピソードを複数生成することができる。
彼らはそのコンセプトがうまく機能することを『サウスパーク』の22分のエピソードで証明した。
このテンプレートに必要なのは、タイトル、あらすじ、主な出来事だけだ。
サウスパーク』の全エピソードを作るのは複雑なプロセスだ。ストーリーテリングシステムは、通常、タイトル、あらすじ、1週間(約3時間のゲームプレイ)のシミュレーションで発生する主要なイベントの形で、抽象的なレベルのアイデアから開始される。1つのシーンの生成には「かなりの時間」がかかり、最大で1分かかる。
- システムはシミュレーション・データに基づいて最大14のシーンを自動的に生成する。
- ショーランナー・システムが登場人物のキャストを編成し、あらかじめ決められたパターンに従ってプロットを形成する。
- 各シーンにはプロットレター(ABC)が割り当てられ、登場人物のグループを切り替えるのに使用される。
- 各シーンは場所、登場人物、台詞を定義する。
- AIカメラシステムとステージの初期設定後、プロットパターンに従ってシーンが再生される。
- キャラクターの声は事前にトレーニングされ、新しいセリフごとにリアルタイムでボイスクリップが生成される。
Fable Studioの研究は、スタンフォード大学とグーグルの科学者が4月に発表した別の研究論文「Generative Agents」に基づいている。この論文では、仮想都市をシミュレートし、いわゆるエージェント(住民)が現実的な日常生活を送り、互いに交流するのに必要なパターンを調べた。
GPT-4、カスタマイズされた拡散モデル、クローン音声
SHOW-1では、OpenAIのGPT-4を使って、シミュレーション内のエージェントに影響を与え、サウスパークのエピソードのシーンを生成しています。
Fable Studioによると、サウスパークのほとんどのエピソードのトランスクリプトがGPT-4のトレーニングデータセットの一部であるため、GPT-4はすでに番組のキャラクターの性格、話し方、一般的なユーモアをよく理解しているという。この劇的なフィンガープリントは、番組の一貫性にとって重要である、と研究チームは言う。
プロンプト・チェイニング、つまり複数のプロンプトをリンクさせることは、もう一つの基盤となる。映画やテレビの脚本を書くディープマインドの『ドラマトロン』もこのテクニックを使っている。
SHOW-1の場合、GPT-4は、Auto-GPTの概念と同様に、独自の応答識別器として機能する。しかし、ストーリーを生成するのは「非常に不連続な作業」であり、「ユーレカ」的思考が必要だとチームは言う。
視覚化のために、開発チームは約1,200の文字と600の背景を持つデータセットを使用した。1つはモノクロ背景上の個々の文字を生成するためのもので、もう1つは背景そのものを生成するためのものである。
このアプローチの特徴は、ユーザーがキャラクターモデルを使用して独自のキャラクターを作成し、シミュレーションに参加させることができることです。
ただし、拡散モデルの解像度が比較的低いため、画質には限界がある。将来的には、GPT-4経由でSVGベクトルを生成し、グラフィックを損なうことなくスケールアップすることを開発者は提案している。
ゲームでもおかゆでも白紙でもない
既存のAIモデルは、SHOW-1が完全に解決するわけではないが、少なくとも以下のような問題に対処しなければならない:
- スロットマシーン効果:この理論によれば、ほとんどのAIモデルの使用は偶然のゲームに似ている。
- オートミール問題: 既存のモデルに対するもうひとつの批判は、すべてが同じように見えるという観察である。連続エピソードの場合、視聴者がパターンを認識し、もはや驚くことができなくなると、これは特に致命的である。
- 空白ページ問題: Fable Studiosによれば、経験豊富なライターでさえ、タイトルやストーリーのアイデアを求められると圧倒されてしまうことがあるという。SHOW-1の大規模な言語モデルでは、前のシミュレーションの文脈があるため、このようなことは起こりえない。
誰が何に責任を持つのか?
そして、AIエピソードの最終的な制作者は誰なのか?その答えは、一見すると複雑だ。この作業は、SHOW-1、GPT-4、シミュレーションのユーザーの間で分担され、どの意見をどの程度重視するかを定義することができる。
シミュレーションは通常、基本的なIPベースのコンテキスト、キャラクターのストーリー、感情、イベント、ロケーションを提供し、最初のクリエイティブ・プロセスに反映させる。ユーザーは、自分の意図性を導入し、エージェントに対して行動制御を行い、生成プロセスを開始する最初の指示を与えます。
また、ユーザーは最終的な判別者としても機能し、プロセスの最後に生成されたストーリーの内容を評価する。一方、GPT-4はメインの生成エンジンとして機能し、ユーザーとシミュレーションから受け取った指示に基づいてシーンとセリフを作成し、外挿する。それぞれの参加者の強みが、首尾一貫した魅力的なストーリーに貢献する、共生的なプロセスです。
重要なのは、プロンプトの連鎖という形をとった私たちのマルチステップアプローチは、チェックとバランスも提供し、不要なランダム性の可能性を軽減し、IPストーリーの世界との整合性をより一貫したものにします。
記事より
SHOW-1が発表される前から、エンターテインメント業界は騒然としていた。特に作家は、AIの進歩に脅威を感じている。Fable Studioは記事の中で、このような危惧を明確に取り上げてはいない。
むしろ、彼らのアプローチは、創造的なストーリーテリングの現行モデルの限界を回避する効果的なソリューションを提供すると主張している。
「このアプローチを改良し続けることで、生成されるコンテンツの質、ユーザー体験、そしてストーリーテリングにおけるジェネレーティブAIシステムの創造的な可能性をさらに高めることができると確信しています」と彼らは結論付けている。