Les capacités créatives de la diffusion stable ou du GPT-4 sont bien connues. Cependant, elles manquent de cohérence pour les histoires complexes. SHOW-1 vise à changer cela.

La société d’IA Fable Studio a combiné plusieurs modèles en un nouveau modèle appelé SHOW-1. Il est capable de générer plusieurs épisodes cohérents d’une série.

L’entreprise a prouvé que son concept fonctionne avec un épisode de 22 minutes de « South Park » qui, étonnamment, traite de l’impact de l’IA sur l’industrie du divertissement.

Pour commencer, le modèle n’a besoin que d’un titre, d’un synopsis et des principaux événements

La création d’un épisode complet de South Park est un processus complexe. Le système de narration est lancé à partir d’une idée abstraite, généralement sous la forme d’un titre, d’un synopsis et des principaux événements qui devraient se produire au cours d’une semaine simulée (environ trois heures de jeu). La génération d’une seule scène peut prendre « beaucoup de temps », jusqu’à une minute.

  • Le système génère automatiquement jusqu’à 14 scènes sur la base des données de simulation.
  • Un système de showrunner organise la distribution des personnages et façonne l’intrigue selon un modèle prédéterminé.
  • Chaque scène se voit attribuer une lettre d’intrigue (ABC) qui permet de passer d’un groupe de personnages à l’autre.
  • Chaque scène définit le lieu, les personnages et le dialogue.
  • Après la configuration initiale du système de caméra IA et de la scène, la scène est jouée selon le modèle de l’intrigue.
  • Les voix des personnages ont été pré-entraînées et des clips vocaux ont été générés en temps réel pour chaque nouvelle réplique.
Imagem: Fable Studio
Image : Fable Studio

Les travaux de Fable Studio s’appuient sur un autre document de recherche, « Generative Agents », publié en avril par des scientifiques de Stanford et de Google. Dans ce document, ils ont simulé une ville virtuelle et étudié le nombre de modèles dont les agents – les habitants – avaient besoin pour suivre une routine quotidienne réaliste et interagir les uns avec les autres.

GPT-4, modèles de diffusion personnalisés et voix clonées

SHOW-1 utilise notamment GPT-4 d’OpenAI pour influencer les agents dans la simulation et pour générer les scènes des épisodes de South Park.

Comme les transcriptions de la plupart des épisodes de South Park font partie de l’ensemble de données d’entraînement de GPT-4, celui-ci a déjà une bonne compréhension de la personnalité des personnages de l’émission, de leur style d’expression et de leur humour en général, selon Fable Studio. Cette empreinte dramatique est importante pour la cohérence d’un programme, explique l’équipe.

Le chaînage de messages, ou l’enchaînement de plusieurs messages, constitue une autre base. Le Dramatron de Deepmind, qui écrit des scénarios pour le cinéma et la télévision, utilise également cette technique.

Dans le cas de SHOW-1, GPT-4 agit comme son propre discriminateur de réponse, similaire au concept d’Auto-GPT. Mais la création d’une histoire est une « tâche hautement discontinue » et nécessite un certain « eurêka », selon l’équipe.

Pour la visualisation, les développeurs ont utilisé un ensemble de données comprenant environ 1 200 personnages et 600 arrière-plans. Ils ont utilisé DreamBooth pour entraîner deux modèles de diffusion stables spécialisés : l’un pour générer des personnages individuels sur un fond monochrome, et l’autre pour les fonds eux-mêmes, afin qu’ils puissent être assemblés de manière modulaire.

La particularité de cette approche est que les utilisateurs peuvent créer leur propre personnage à l’aide du modèle de personnage et le faire participer à la simulation.

Esta é a aparência de um personagem personalizado de South Park que a SHOW-1 pode integrar à história. Imagem: Fable Studio
Voici à quoi ressemble un personnage personnalisé de South Park que SHOW-1 peut intégrer dans l’histoire. Image : Fable Studio

Cependant, la qualité de l’image est limitée en raison de la résolution relativement faible des modèles de diffusion. À l’avenir, les développeurs suggèrent donc de générer des vecteurs SVG via GPT-4 pour augmenter la taille des graphiques sans perte.

Ni jeu, ni bouillie, ni page blanche

Les modèles d’IA existants devraient faire face aux problèmes suivants, entre autres, que SHOW-1 ne résout pas complètement, mais qu’il réduit au moins :

  • Effet machine à sous : selon cette théorie, l’utilisation de la plupart des modèles d’IA s’apparente à un jeu de hasard, car les résultats ne sont pas ou peu prévisibles.
  • Problème des flocons d’avoine : une autre critique des modèles existants est l’observation que tout se ressemble. Dans le cas d’une série d’épisodes, cela est d’autant plus fatal que le spectateur reconnaît les schémas et ne peut plus être surpris.
  • Problèmede la page blanche : selon Fable Studios, même les auteurs expérimentés se sentent parfois dépassés lorsqu’on leur demande de trouver un titre ou une idée d’histoire. Cela ne peut pas se produire avec un grand modèle linguistique dans SHOW-1 en raison du contexte de la simulation précédente.
Imagem: Fable Studio
Image : Fable Studio

Qui est responsable de quoi ?

Et qui est en fin de compte le créateur de l’épisode d’IA ? La réponse est plus complexe qu’il n’y paraît à première vue. La tâche est partagée entre les utilisateurs de SHOW-1, GPT-4 et la simulation, et il est possible de définir quelle opinion doit être pondérée et dans quelle mesure.

La simulation fournit généralement le contexte fondamental basé sur la propriété intellectuelle, les histoires des personnages, les émotions, les événements et les lieux qui alimentent le processus créatif initial. L’utilisateur introduit son intentionnalité, exerce un contrôle comportemental sur les agents et fournit les instructions initiales qui lancent le processus de génération.

L’utilisateur joue également le rôle de discriminateur final, en évaluant le contenu de l’histoire générée à la fin du processus. Le GPT-4, quant à lui, agit comme le principal moteur de génération, créant et extrapolant les scènes et les dialogues sur la base des instructions qu’il reçoit de l’utilisateur et de la simulation. Il s’agit d’un processus symbiotique dans lequel les forces de chaque participant contribuent à une histoire cohérente et captivante.

Il est important de noter que notre approche en plusieurs étapes, sous la forme d’une chaîne d’invites, offre également des contrôles et des équilibres, atténuant la possibilité d’un hasard indésirable et permettant un alignement plus cohérent avec l’univers de l’histoire de la propriété intellectuelle.

Extrait de l’article

Avant même le lancement de SHOW-1, l’industrie du divertissement était en ébullition. Les auteurs, en particulier, se sentent menacés par les progrès de l’IA. Fable Studio n’aborde pas explicitement ces craintes dans son article.

Il affirme plutôt que son approche offre une solution efficace pour contourner les limites des modèles actuels de narration créative.

« En continuant à affiner cette approche, nous sommes convaincus que nous pouvons encore améliorer la qualité du contenu généré, l’expérience de l’utilisateur et le potentiel créatif des systèmes d’IA générative dans le domaine de la narration », concluent-ils.