Las capacidades creativas de Difusión Estable o GPT-4 son bien conocidas. Sin embargo, carecen de la consistencia necesaria para historias complejas. SHOW-1 pretende cambiar esta situación.
La empresa de IA Fable Studio ha combinado varias plantillas en una nueva llamada SHOW-1. Es capaz de generar múltiples episodios coherentes de una serie.
Demostraron que su concepto funciona con un episodio de 22 minutos de «South Park» que, sorprendentemente, trata sobre el impacto de la IA en la industria del entretenimiento.
Para empezar, la plantilla sólo necesita un título, una sinopsis y los acontecimientos principales
Crear un episodio completo de South Park es un proceso complejo. El sistema de narración se inicia con una idea de nivel abstracto, normalmente en forma de título, sinopsis y acontecimientos principales que deberían ocurrir en una semana simulada (unas tres horas de juego). La generación de una sola escena puede llevar un «tiempo considerable», hasta un minuto.
- El sistema genera automáticamente hasta 14 escenas a partir de los datos de la simulación.
- Un sistema de showrunner organiza el reparto de personajes y da forma a la trama según un patrón predeterminado.
- A cada escena se le asigna una letra argumental (ABC) que sirve para alternar entre los distintos grupos de personajes.
- Cada escena define la localización, los personajes y el diálogo.
- Tras la configuración inicial del sistema de cámaras de IA y el escenario, la escena se reproduce según el patrón de la trama.
- Las voces de los personajes se preentrenaron y se generaron clips de voz en tiempo real para cada nueva línea.
El trabajo de Fable Studio se basa en otro trabajo de investigación, «Generative Agents», publicado en abril por científicos de Stanford y Google. En él, simulaban una ciudad virtual y analizaban cuántos patrones necesitaban los llamados agentes -los habitantes- para seguir una rutina diaria realista e interactuar entre sí.
GPT-4, modelos de difusión personalizados y voces clonadas
Entre otras cosas, SHOW-1 utiliza GPT-4 de OpenAI para influir en los agentes de la simulación y generar las escenas de los episodios de South Park.
Dado que las transcripciones de la mayoría de los episodios de South Park forman parte del conjunto de datos de entrenamiento de GPT-4, éste ya conoce bien la personalidad de los personajes, su estilo de hablar y su humor en general, según Fable Studio. Según el equipo, esta huella dramática es importante para la coherencia de un programa.
El encadenamiento de indicaciones, es decir, el enlace de varias indicaciones, es otra de las bases. El Dramatron de Deepmind, que escribe guiones para cine y televisión, también utiliza esta técnica.
En el caso de SHOW-1, GPT-4 actúa como su propio discriminador de respuestas, similar al concepto de Auto-GPT. Pero generar una historia es una «tarea muy discontinua» y requiere cierto pensamiento «eureka», según el equipo.
Para la visualización, los desarrolladores utilizaron un conjunto de datos con unos 1.200 caracteres y 600 fondos. Utilizaron DreamBooth para entrenar dos modelos especializados de difusión estable: uno para generar personajes individuales sobre un fondo monocromo y otro para los propios fondos, de modo que pudieran ensamblarse de forma modular.
Una característica especial de este enfoque es que los usuarios pueden crear su propio personaje utilizando el modelo de personajes y hacerlo participar en la simulación.
Sin embargo, la calidad de la imagen es limitada debido a la relativamente baja resolución de los modelos de difusión, por lo que, en el futuro, los desarrolladores sugieren generar vectores SVG mediante GPT-4 para escalar los gráficos sin pérdidas.
Ni juego, ni gachas, ni página en blanco
Los modelos de IA existentes tendrían que lidiar, entre otros, con los siguientes problemas, que SHOW-1 no resuelve por completo, pero al menos reduce:
- Efecto máquina tragaperras: Según esta teoría, el uso de la mayoría de los modelos de IA es similar a un juego de azar, ya que los resultados no pueden predecirse en absoluto o sólo con dificultad.
- Problema de la avena : Otra crítica a los modelos existentes es la observación de que todo parece igual. En el caso de los episodios en serie, esto es especialmente fatal cuando el espectador reconoce los patrones y ya no puede sorprenderse.
- Problema de la página en blanco : según Fable Studios, incluso los guionistas experimentados se sienten a veces abrumados cuando se les pide un título o una idea para una historia. Esto no puede ocurrir con un gran modelo lingüístico en SHOW-1 debido al contexto de la simulación previa.
¿Quién es responsable de qué?
¿Y quién es, en última instancia, el creador del episodio de IA? La respuesta es más compleja de lo que parece a primera vista. La tarea se reparte entre los usuarios de SHOW-1, GPT-4 y la simulación, y es posible definir qué opinión debe ponderarse y en qué medida.
Mientras que la simulación suele proporcionar el contexto fundamental basado en la propiedad intelectual, las historias de los personajes, las emociones, los acontecimientos y las localizaciones que alimentan el proceso creativo inicial. El usuario introduce su intencionalidad, ejerce un control de comportamiento sobre los agentes y proporciona las instrucciones iniciales que ponen en marcha el proceso de generación.
El usuario también actúa como discriminador final, evaluando el contenido de la historia generada al final del proceso. GPT-4, por su parte, actúa como motor principal de generación, creando y extrapolando las escenas y diálogos a partir de las instrucciones que recibe del usuario y de la simulación. Se trata de un proceso simbiótico en el que los puntos fuertes de cada participante contribuyen a crear una historia coherente y atractiva.
Y lo que es más importante, nuestro planteamiento de varios pasos en forma de cadena de instrucciones también ofrece controles y equilibrios, mitigando la posibilidad de aleatoriedad no deseada y permitiendo una alineación más coherente con el mundo de la historia de la IP.
Del artículo
Incluso antes del lanzamiento de SHOW-1, la industria del entretenimiento estaba alborotada. Los autores, en particular, se sienten amenazados por los avances de la IA. Fable Studio no aborda explícitamente estos temores en su artículo.
Más bien argumentan que su enfoque ofrece una solución eficaz para sortear las limitaciones de los modelos actuales de narración creativa.
«A medida que sigamos perfeccionando este enfoque, confiamos en poder mejorar aún más la calidad del contenido generado, la experiencia del usuario y el potencial creativo de los sistemas generativos de IA en la narración», concluyen.