Nosso colaborador convidado, Ran Mo, fala sobre o uso da IA para simular a vida nos videogames. Como ex-líder de produto na EA, ele trabalhou em um clássico nesse campo: The Sims. Agora, ele deseja expandir os limites.
A simulação da vida, das amizades e das companhias tem sido uma busca incansável nos videogames. Desde implementações simples em Tamagotchi e Pokémon até as vidas complexas de The Sims, a incorporação de companheiros virtuais tem tocado profundamente milhões de jogadores e formado a base de algumas das franquias mais duradouras.
Em sua essência, o processo de criação de companheiros digitais é também uma busca para entender melhor a natureza da sensibilidade. E, como veremos, as técnicas utilizadas terão aplicações de amplo alcance além dos jogos.
À medida que a tecnologia, especialmente a IA, se torna mais poderosa, novas oportunidades se abrem para reimaginar a vida digital e as companhias. Este ensaio está dividido em duas partes. A Parte 1 traça alguns dos marcos históricos mais importantes na simulação da vida digital. A Parte 2 explora nossos esforços na Proxima para avançar nessa busca. Vamos começar!
O ponto de partida: Scripting “vida” nos videogames
O ponto de partida da programação moderna de videogames é o scripting. O scripting é um termo amplo que engloba muitos conceitos, desde programas muito simples até árvores de decisão complexas e máquinas de estados. No entanto, essencialmente, o scripting não trata de “verdadeira inteligência”, mas sim de respostas determinísticas que seguem um conjunto de regras predefinidas – essencialmente versões digitais de livros de aventura onde você escolhe o seu próprio caminho.
Apesar de sua natureza mecânica, o scripting pode ser incrivelmente poderoso na criação de imersão. Mass Effect e Dragon Age, duas franquias populares da BioWare, usam o scripting para criar oportunidades de relacionamento profundo com os companheiros dos jogadores. Dependendo de suas escolhas, os jogadores podem desbloquear histórias de fundo, afetar o resultado do jogo e até mesmo formar relacionamentos românticos com os companheiros digitais. A popularidade das duas franquias é um testemunho do poder da narrativa imersiva criada por humanos.
O desafio com o scripting é, em última análise, a escalabilidade. Os designers não apenas precisam projetar cada interação manualmente, mas também levar em conta todas as possíveis combinações de escolhas do jogador. Isso significa que o custo de conteúdo aumenta exponencialmente à medida que a experiência do jogador progride. Considere o seguinte exemplo: um jogador escolhe entre três opções diferentes para uma interação específica. Com base em sua escolha, surgem três novas opções, e assim por diante, totalizando 30 escolhas ao longo do jogo. Essa sequência de decisões (supondo que não haja sobreposições) exigiria mais cenários pré-programados do que grãos de areia na Terra! Claramente, é necessário um abordagem diferente para criar imersão em larga escala.
The Sims e IA baseada em utilidade
Tive a oportunidade de trabalhar na franquia The Sims na EA, e foi incrível ver a paixão que a franquia instiga. Atualmente, mais de 70 milhões de pessoas jogam The Sims. A quarta edição do jogo já arrecadou mais de US$ 2 bilhões de dólares e ainda está crescendo em popularidade.
No coração da franquia estão os Sims – companheiros digitais autônomos com suas próprias necessidades, preferências e desejos. Os jogadores podem controlá-los de vez em quando ou construir ambientes mais amplos para eles. Mas esses agentes também são perfeitamente capazes de conduzir suas próprias vidas. Em contraste com as histórias pré-planejadas e roteirizadas de Mass Effect, The Sims enfatiza as narrativas emergentes que se formam por meio desses companheiros autônomos. Em termos mais simples, os Sims são uma simulação da vida.
Will Wright, o criador de The Sims, consultou duas fontes para sua “casa de bonecas virtual”: a primeira foi a “Teoria da Motivação Humana” de Maslow, na qual os desejos humanos são categorizados em hierarquias. A segunda foi o livro “Maps of the Mind”, de Charles Hampden-Turner, no qual os pensamentos são catalogados e organizados.
A combinação dessas duas fontes inspirou o motor de IA de The Sims, conhecido como IA baseada em utilidade. Nesse sistema, a IA equilibra dois elementos: commodities e utilidades. As commodities representam os estados internos, ou necessidades psicológicas, de cada Sim, e as curvas de utilidade representam os meios para satisfazer essas commodities. Como exemplo, uma necessidade interna (a commodity) poderia ser ‘fome', e diferentes opções de comida (cozinhar ou aquecer restos) representam maneiras de satisfazer essa necessidade. A IA avalia simultaneamente centenas de necessidades e decisões associadas – a necessidade de comer, a necessidade de pertencer, a necessidade de encontrar amor – e as prioriza na tomada de decisões. Em muitos aspectos, isso não é muito diferente de como tomamos decisões como seres humanos!
No entanto, apesar dos muitos sucessos da IA de The Sims, algo parece estar faltando. Cada Sim parece estar preso em uma esteira perpétua de auto-otimização, cego para o universo além de suas necessidades imediatas. Falta-lhe a capacidade de estabelecer conexões com os jogadores além do escopo de suas próprias necessidades. Relacionamentos genuínos transcendem a mera otimização; envolvem aprender, experimentar e crescer juntos. Para alcançar isso, precisamos de uma abordagem diferente.
Black & White e aprendizado por reforço
O jogo Black & White foi lançado em 2001. Black & White era um “god-game” no qual os jogadores atuavam como seres divinos que governavam cidadãos desafortunados. Mas a verdadeira estrela era uma criatura companheira que os jogadores influenciavam indiretamente. A criatura tinha o poder de nutrir ou destruir e tinha intenções e desejos próprios.
Os jogadores não podiam controlar diretamente o companheiro da criatura, mas podiam influenciar suas decisões por meio de recompensas e punições (por exemplo, acariciando e batendo), e ao longo do tempo, por meio dessas ações, moldar a criatura para o bem ou o mal – daí o nome ‘Black & White'.
Sem o conhecimento dos jogadores, a criatura era controlada por algoritmos de aprendizado por reforço. Ações dos jogadores, como acariciar e bater, se tornavam os inputs de treinamento que moldavam os desejos, crenças e intenções da criatura ao longo do tempo. Em termos mais simples, a criatura podia aprender.
Black & White foi um dos primeiros jogos a utilizar inteligência artificial moderna em jogos. Foi um sucesso comercial e crítico, com a IGN chamando-o de uma “experiência miraculosa”. Mas Black & White também estava muito à frente de seu tempo: estava severamente limitado pelos algoritmos e poder de processamento de sua época. Os processadores possuíam apenas uma fração ínfima de seu poder atual, e as GPUs dedicadas – uma necessidade para o processamento moderno de IA – ainda estavam em seus primórdios.
No entanto, em um sinal da intimidade entre os videogames e a tecnologia de ponta, a história de Black & White não terminou aí. O programador de IA do jogo era um jovem engenheiro chamado Demis Hassabis. Após Black & White e outras aventuras na indústria de jogos, Hassabis voltou à escola para concluir seu doutorado em neurociência cognitiva. Após se formar, Hassabis fundou a empresa de inteligência artificial DeepMind, onde ainda é CEO hoje. Em 2014, a DeepMind foi adquirida pelo Google por cerca de US$ 500 milhões, e em 2016, a empresa foi destaque quando seu programa AlphaGo derrotou um campeão mundial no antigo jogo Go. Hoje, a tecnologia de aprendizado por reforço da DeepMind é usada desde previsões de estrutura de proteínas até a melhoria da eficiência de fazendas eólicas. É curioso pensar que tudo isso começou com a construção de companheiros digitais em jogos.
Hoje e além
O recente aumento na inovação em IA reavivou o interesse em simular a vida nos jogos. Uma abordagem é incorporar chatbots de conversação diretamente no jogo, como neste mod Elder Scrolls. Essa abordagem é atraente porque é relativamente fácil de visualizar e implementar: conectar um chatbot a um avatar do jogo, integrar reconhecimento de fala e texto para fala, adicionar uma boa dose de lore do jogo, e voilà, você tem um NPC falante legítimo!
Mas tais implementações são relativamente superficiais e não são verdadeiras simulações da vida. O jogo simplesmente age como cenário para o chatbot, e a novidade dessas experiências pode rapidamente se esgotar.
Em contraste, uma implementação mais profunda é o projeto Minecraft Voyager, no qual um agente alimentado por LLM explora o mundo de Minecraft e aprende habilidades sem intervenção humana. O agente propôs suas próprias tarefas, construiu sua própria biblioteca de conhecimento e usou essas aprendizagens para avançar em suas descobertas. Sem orientação humana, Voyager deu sentido ao mundo de Minecraft, construiu sua própria casa e, eventualmente, minerou diamantes.
Duas coisas se destacaram para nós: a capacidade do agente de dar sentido ao seu mundo e sua capacidade de formar memórias de longo prazo por meio da experiência. E se pudéssemos aproveitar essas habilidades não como um agente de jogo autônomo, mas sim para melhor simular a vida e a companhia?
Protótipo Lumari
Como ponto de partida para o que pretendemos alcançar, considere um momento muito pequeno com um cachorro chamado Nemo.
- Percepção: Nemo vê uma pessoa desconhecida e com aparência assustadora se aproximando de seu dono
- Entrada: O dono grita alto e agita os braços
- Memória e Personalidade: Nemo lembra que é muito protetor de seu dono e que é destemido quando o dono está sob ameaça.
Em um instante, Nemo interpreta tudo isso e toma sua decisão. Ele age rapidamente, pulando entre seu dono e o intruso e rosnando ameaçadoramente, pronto para atacar. Depois disso, Nemo é apreciado por sua bravura e recompensado com um petisco, reforçando seu comportamento.
Mas e se Nemo não fosse destemido, mas covarde? Ele optaria por latir de longe, talvez? E se o intruso fosse na verdade um amigo que o dono estava animado para ver? Nemo seria repreendido por rosnar para um amigo e, se sim, ele se lembraria disso para a próxima vez? Esses momentos emergentes destacam as nuances dos relacionamentos da vida real que não podem ser pré-programadas. No entanto, são esses momentos que fazem os companheiros parecerem reais e autênticos. Acreditamos que a tecnologia moderna avançou a ponto de começarmos a abordar esses relacionamentos sutis.
Muitos modelos de IA modernos dependem de uma arquitetura de rede neural conhecida como transformers. Através de seu mecanismo de atenção, os transformers se destacam em compreender o contexto e as dependências em várias fontes de dados grandes e diversas. Na simulação da vida em jogos, essas fontes de dados poderiam representar a memória, percepção, comandos do usuário e muito mais. Para entender melhor isso, vamos transformar Nemo de um cão real em um companheiro virtual.
- Percepção: Construímos um sistema que converte o mundo do jogo em 3D em linguagem natural em tempo real, para que Nemo possa “perceber” o mundo ao seu redor a qualquer momento.
- Memória, personalidade, intenção: armazenados e interpretados digitalmente (como arquivos de vetores) e continuamente evoluindo por meio de novas experiências, assim como na vida real.
- Entrada do usuário: Adicionamos reconhecimento de fala para comandos de voz do jogador. Mas esses comandos também poderiam ser facilmente entradas de controle em qualquer outra forma.
Incluímos abaixo uma demonstração do protótipo.
Para possibilitar o cenário mencionado, aplicamos uma primeira camada de um grande modelo de linguagem para traduzir “percepção em intenção” ao utilizar entradas de percepção, memória, comandos do usuário e outras pistas. No caso de Nemo, a saída seria algo como “Oh não, meu dono está em perigo. Eu preciso proteger meu dono!”
Mas essa intenção ainda não é uma ação no jogo. Para alcançar isso, precisamos introduzir uma segunda camada de um grande modelo de linguagem para traduzir “intenção em ação”: convertendo a intenção em comandos de jogo executáveis em tempo real. Essa segunda camada é particularmente difícil porque precisa compreender a variedade de ações executáveis no contexto de suas intenções; quaisquer comandos incorretos poderiam travar o jogo. Portanto, também adicionamos uma terceira camada de um sistema de IA para autocorreção de falhas na lógica e mudanças no estado do jogo em tempo real.
Finalmente, adicionamos um sistema de “aprendizado em tempo real por associação” que registra observações e resultados na memória, para que cada ação influencie parte da memória de longo prazo de Nemo e afete o resultado de decisões futuras. Acreditamos que essa capacidade de aprendizado contínuo será uma parte central das simulações de vida futuras.
Mais uma observação: construímos Nemo separadamente do mundo. Nemo percebe, interpreta e aprende do mundo ao seu redor em tempo real, assim como fazemos como jogadores. Isso é diferente da abordagem tradicional para NPCs, que são construídos como “parte do mundo”. A arquitetura de Nemo o “liberta” de seu ambiente e o abstrai para atravessar com os jogadores em novas experiências, abrindo oportunidades para inúmeras aventuras criadas pelos próprios jogadores no futuro.
Implicações e o futuro
A simulação de vida e companheirismo nos jogos tem importantes implicações. Comercialmente, isso levou a algumas das franquias mais duradouras e lucrativas, como The Sims. Para os jogadores, esses companheiros têm a capacidade de aprofundar o envolvimento nos jogos. Além dos jogos, essas buscas também simbolizam uma aproximação mais profunda dos relacionamentos e experiências humanas.
Para ser claro, ainda existem muitos desafios e elementos não resolvidos – e muitas peças do quebra-cabeça ainda não foram construídas. Ao mesmo tempo, o ritmo das inovações técnicas tem sido impressionante de se ver: em questão de semanas após o lançamento do modelo básico de código aberto da Meta, os pesquisadores treinaram modelos leves e específicos para aplicativos que se destacam em níveis elevados.
Modelos e tecnologias de ponta são apenas parte da resposta. Para criar experiências verdadeiramente emergentes e imersivas, os criadores de jogos precisam unir tecnologia inovadora com uma profunda habilidade artística. Na Proxima, estamos animados para empurrar essas fronteiras na construção da próxima geração de experiências interativas. Ainda estamos no início dessa jornada, e há muito mais que estamos visando construir. Acreditamos que é melhor aprender juntos do que sozinhos.
Com informação do The Decoder.