Os recursos criativos do Stable Diffusion ou do GPT-4 são bem conhecidos. No entanto, eles não têm a consistência necessária para histórias complexas. O SHOW-1 pretende mudar isso.
A empresa de IA Fable Studio combinou vários modelos em um novo modelo chamado SHOW-1. Ele é capaz de gerar vários episódios coerentes de uma série.
Eles provaram que seu conceito funciona com um episódio de 22 minutos de “South Park” que, surpreendentemente, é sobre o impacto da IA no setor de entretenimento.
Para começar, o modelo precisa apenas de um título, uma sinopse e os principais eventos
Criar um episódio completo de South Park é um processo complexo. O sistema de narração é iniciado com uma ideia de nível abstrato, geralmente na forma de um título, sinopse e eventos principais que devem ocorrer em uma semana simulada (cerca de três horas de jogo). A geração de uma única cena pode levar uma “quantidade significativa de tempo”, até um minuto.
- O sistema gera automaticamente até 14 cenas com base nos dados da simulação.
- Um sistema de showrunner organiza o elenco de personagens e molda o enredo de acordo com um padrão predeterminado.
- Cada cena recebe uma letra de enredo (ABC) que é usada para alternar entre diferentes grupos de personagens.
- Cada cena define o local, os personagens e o diálogo.
- Após a configuração inicial do sistema de câmera de IA e do palco, a cena é reproduzida de acordo com o padrão do enredo.
- As vozes dos personagens foram pré-treinadas e os clipes de voz foram gerados em tempo real para cada nova linha.
O trabalho do Fable Studio é baseado em outro trabalho de pesquisa, “Generative Agents”, publicado em abril por cientistas de Stanford e do Google. Nele, eles simularam uma cidade virtual e observaram quantos padrões os chamados agentes – os habitantes – precisavam para seguir uma rotina diária realista e interagir uns com os outros.
GPT-4, modelos de difusão personalizados e vozes clonadas
Entre outras coisas, o SHOW-1 usa o GPT-4 da OpenAI para influenciar os agentes na simulação e para gerar as cenas dos episódios de South Park.
Como as transcrições da maioria dos episódios de South Park fazem parte do conjunto de dados de treinamento do GPT-4, ele já tem uma boa compreensão das personalidades dos personagens do programa, dos estilos de fala e do humor geral, de acordo com o Fable Studio. Essa impressão digital dramática é importante para a consistência de um programa, diz a equipe.
O encadeamento de prompts, ou a vinculação de vários prompts, fornece outra base. O Dramatron da Deepmind, que escreve roteiros para cinema e televisão, também usa essa técnica.
No caso do SHOW-1, o GPT-4 atua como seu próprio discriminador de respostas, semelhante ao conceito do Auto-GPT. Mas a geração de uma história é uma “tarefa altamente descontínua” e requer algum pensamento “eureca”, de acordo com a equipe.
Para a visualização, os desenvolvedores usaram um conjunto de dados com cerca de 1.200 caracteres e 600 planos de fundo. Eles usaram o DreamBooth para treinar dois modelos especializados de difusão estável: um para gerar personagens individuais em um plano de fundo monocromático e outro para os próprios planos de fundo, para que pudessem ser montados de forma modular.
Um recurso especial dessa abordagem é que os usuários podem criar seu próprio personagem usando o modelo de personagem e fazer com que ele participe da simulação.
No entanto, a qualidade da imagem é limitada devido à resolução relativamente baixa dos modelos de difusão, portanto, no futuro, os desenvolvedores sugerem a geração de vetores SVG via GPT-4 para aumentar a escala dos gráficos sem perda.
Nem jogo, nem mingau, nem página em branco
Os modelos de IA existentes teriam que lidar com os seguintes problemas, entre outros, que o SHOW-1 não resolve completamente, mas pelo menos reduz:
- Efeito do caça-níqueis: De acordo com essa teoria, o uso da maioria dos modelos de IA é semelhante a um jogo de azar, pois os resultados não podem ser previstos de forma alguma ou apenas com dificuldade.
- Problema da farinha de aveia: outra crítica aos modelos existentes é a observação de que tudo parece igual. No caso de episódios em série, isso é especialmente fatal quando o espectador reconhece os padrões e não pode mais se surpreender.
- Problema da página em branco: de acordo com a Fable Studios, até mesmo escritores experientes às vezes se sentem sobrecarregados quando são solicitados a criar um título ou uma ideia de história. Isso não pode acontecer com um modelo de linguagem grande no SHOW-1 devido ao contexto da simulação anterior.
Quem é responsável pelo quê?
E quem é, em última análise, o criador do episódio de IA? A resposta é mais complexa do que parece à primeira vista. A tarefa é compartilhada entre os usuários do SHOW-1, GPT-4 e a simulação, e é possível definir qual opinião deve ser ponderada e quanto.
Embora a simulação geralmente forneça o contexto fundamental baseado em IP, histórias de personagens, emoções, eventos e localidades que alimentam o processo criativo inicial. O usuário introduz sua intencionalidade, exerce controle comportamental sobre os agentes e fornece as instruções iniciais que dão início ao processo de geração.
O usuário também atua como o discriminador final, avaliando o conteúdo da história gerada no final do processo. O GPT-4, por outro lado, atua como o principal mecanismo de geração, criando e extrapolando as cenas e o diálogo com base nas instruções que recebe do usuário e da simulação. É um processo simbiótico em que os pontos fortes de cada participante contribuem para uma história coerente e envolvente.
É importante ressaltar que nossa abordagem de várias etapas na forma de uma cadeia de prompts também oferece verificações e equilíbrios, atenuando a possibilidade de aleatoriedade indesejada e permitindo um alinhamento mais consistente com o mundo da história de PI.
Do artigo
Mesmo antes do lançamento do SHOW-1, o setor de entretenimento estava em polvorosa. Os autores, em particular, sentem-se ameaçados pelos avanços da IA. O Fable Studio não aborda explicitamente esses temores em seu artigo.
Pelo contrário, eles argumentam que sua abordagem oferece uma solução eficaz para contornar as limitações dos modelos atuais de narrativa criativa.
“À medida que continuamos a refinar essa abordagem, estamos confiantes de que podemos aprimorar ainda mais a qualidade do conteúdo gerado, a experiência do usuário e o potencial criativo dos sistemas de IA generativa na narração de histórias”, concluem.