Nuestro colaborador invitado, Ran Mo, habla sobre el uso de la IA para simular la vida en los videojuegos. Como exlíder de producto en EA, trabajó en un clásico en este campo: Los Sims. Ahora, quiere expandir los límites.

La simulación de la vida, la amistad y las compañías ha sido una búsqueda incansable en los videojuegos. Desde implementaciones simples en Tamagotchis y Pokémon hasta las complejas vidas de Los Sims, la incorporación de compañeros virtuales ha impactado profundamente a millones de jugadores y ha sentado las bases de algunas de las franquicias más duraderas.

En su esencia, el proceso de crear compañeros digitales es también una búsqueda para comprender mejor la naturaleza de la sensibilidad. Y, como veremos, las técnicas utilizadas tendrán aplicaciones de amplio alcance más allá de los juegos.

A medida que la tecnología, especialmente la IA, se vuelve más poderosa, se abren nuevas oportunidades para reinventar la vida digital y las compañías. Este ensayo se divide en dos partes. La Parte 1 traza algunos de los hitos históricos más importantes en la simulación de la vida digital. La Parte 2 explora nuestros esfuerzos en Proxima para avanzar en esta búsqueda. ¡Comencemos!

El punto de partida: Scripting «vida» en los videojuegos

El punto de partida de la programación moderna de videojuegos es el «scripting». El scripting es un término amplio que abarca muchos conceptos, desde programas muy simples hasta árboles de decisiones complejos y máquinas de estados. Sin embargo, esencialmente, el scripting no trata de «verdadera inteligencia», sino de respuestas determinísticas que siguen un conjunto de reglas predefinidas, esencialmente versiones digitales de libros de aventuras donde eliges tu propio camino.

A pesar de su naturaleza mecánica, el scripting puede ser increíblemente poderoso para crear inmersión. Mass Effect y Dragon Age, dos populares franquicias de BioWare, utilizan el scripting para crear oportunidades de relaciones profundas con los compañeros de los jugadores. Dependiendo de sus elecciones, los jugadores pueden desbloquear historias de fondo, afectar el resultado del juego e incluso formar relaciones románticas con los compañeros digitales. La popularidad de ambas franquicias es un testimonio del poder de la narrativa inmersiva creada por humanos.

El desafío con el scripting es, en última instancia, la escalabilidad. Los diseñadores no solo deben diseñar cada interacción manualmente, sino también tener en cuenta todas las posibles combinaciones de elecciones del jugador. Esto significa que el costo del contenido aumenta exponencialmente a medida que avanza la experiencia del jugador. Considera el siguiente ejemplo: un jugador elige entre tres opciones diferentes para una interacción específica. Según su elección, surgen tres nuevas opciones, y así sucesivamente, ¡totalizando 30 elecciones a lo largo del juego! ¡Esta secuencia de decisiones (suponiendo que no haya superposiciones) requeriría más escenarios preprogramados que granos de arena en la Tierra! Claramente, se necesita un enfoque diferente para crear una inmersión a gran escala.

Los Sims y la IA basada en utilidad

Tuve la oportunidad de trabajar en la franquicia de Los Sims en EA, y fue increíble ver la pasión que la franquicia despierta. En la actualidad, más de 70 millones de personas juegan Los Sims. La cuarta edición del juego ya ha recaudado más de 2 mil millones de dólares y sigue ganando popularidad.

En el corazón de la franquicia están los Sims, compañeros digitales autónomos con sus propias necesidades, preferencias y deseos. Los jugadores pueden controlarlos ocasionalmente o construir entornos más amplios para ellos. Pero estos agentes también son perfectamente capaces de llevar sus propias vidas. En contraste con las historias preplaneadas y guionizadas de Mass Effect, Los Sims enfatiza las narrativas emergentes que se forman a través de estos compañeros autónomos. En términos más simples, Los Sims son una simulación de la vida.

Will Wright, el creador de Los Sims, consultó dos fuentes para su «casa de muñecas virtual»: la primera fue la «Teoría de la Motivación Humana» de Maslow, en la que se categorizan los deseos humanos en jerarquías. La segunda fue el libro «Maps of the Mind», de Charles Hampden-Turner, en el que se catalogan y organizan los pensamientos.

La combinación de estas dos fuentes inspiró el motor de IA de Los Sims, conocido como IA basada en utilidad. En este sistema, la IA equilibra dos elementos: bienes y utilidades. Los bienes representan los estados internos, o necesidades psicológicas, de cada Sim, y las curvas de utilidad representan los medios para satisfacer esos bienes. Como ejemplo, una necesidad interna (el bien) podría ser «hambre», y las diferentes opciones de comida (cocinar o calentar sobras) representan formas de satisfacer esa necesidad. La IA evalúa simultáneamente cientos de necesidades y decisiones asociadas, la necesidad de comer, la necesidad de pertenecer, la necesidad de encontrar amor y las prioriza al tomar decisiones. En muchos aspectos, esto no es muy diferente de cómo tomamos decisiones como seres humanos.

Sin embargo, a pesar de los muchos éxitos de la IA de Los Sims, algo parece faltar. Cada Sim parece estar atrapado en una rutina perpetua de autooptimización, ciego al universo más allá de sus necesidades inmediatas. Carece de la capacidad de establecer conexiones con los jugadores más allá del alcance de sus propias necesidades. Las relaciones genuinas trascienden la mera optimización; involucran aprender, experimentar y crecer juntos. Para lograr esto, necesitamos un enfoque diferente.

Black & White y aprendizaje por refuerzo

El juego Black & White se lanzó en 2001. Black & White era un «juego de dios» en el que los jugadores actuaban como seres divinos que gobernaban a ciudadanos desafortunados. Pero la verdadera estrella era una criatura compañera que los jugadores influenciaban indirectamente. La criatura tenía el poder de nutrir o destruir y tenía intenciones y deseos propios.

Los jugadores no podían controlar directamente a la criatura compañera, pero podían influir en sus decisiones a través de recompensas y castigos (por ejemplo, acariciando y golpeando), y a lo largo del tiempo, a través de estas acciones, moldear la criatura para el bien o para el mal, de ahí el nombre «Black & White».

Sin que los jugadores lo supieran, la criatura estaba controlada por algoritmos de aprendizaje por refuerzo. Las acciones de los jugadores, como acariciar y golpear, se convertían en las entradas de entrenamiento que moldeaban los deseos, creencias e intenciones de la criatura a lo largo del tiempo. En términos más simples, la criatura podía aprender.

Black & White fue uno de los primeros juegos en utilizar inteligencia artificial moderna en los juegos. Fue un éxito comercial y crítico, y la IGN lo llamó una «experiencia milagrosa». Pero Black & White también estaba muy adelantado a su tiempo: estaba severamente limitado por los algoritmos y el poder de procesamiento de su época. Los procesadores tenían solo una fracción minúscula de su poder actual, y las GPUs dedicadas, una necesidad para el procesamiento moderno de IA, todavía estaban en sus inicios.

Sin embargo, como un indicio de la estrecha relación entre los videojuegos y la tecnología de vanguardia, la historia de Black & White no terminó ahí. El programador de IA del juego era un joven ingeniero llamado Demis Hassabis. Después de Black & White y otras aventuras en la industria de los juegos, Hassabis regresó a la escuela para completar su doctorado en neurociencia cognitiva. Después de graduarse, Hassabis fundó la empresa de inteligencia artificial DeepMind, donde aún es CEO en la actualidad. En 2014, Google adquirió DeepMind por alrededor de 500 millones de dólares y en 2016, la compañía fue destacada cuando su programa AlphaGo derrotó a un campeón mundial en el antiguo juego del Go. Hoy en día, la tecnología de aprendizaje por refuerzo de DeepMind se utiliza desde la predicción de la estructura de proteínas hasta la mejora de la eficiencia de los parques eólicos. Es curioso pensar que todo esto comenzó con la creación de compañeros digitales en los juegos.

Hoy y más allá

El reciente aumento en la innovación en IA ha avivado el interés en la simulación de la vida en los juegos. Un enfoque es incorporar chatbots de conversación directamente en el juego, como en este mod de Elder Scrolls. Este enfoque es atractivo porque es relativamente fácil de visualizar e implementar: conectar un chatbot a un avatar del juego, integrar reconocimiento de voz y texto a voz, agregar una buena dosis de la historia del juego y ¡listo, tienes un NPC parlante legítimo!

Pero tales implementaciones son relativamente superficiales y no son verdaderas simulaciones de la vida. El juego simplemente actúa como escenario para el chatbot, y la novedad de estas experiencias puede desvanecerse rápidamente.

En contraste, una implementación más profunda es el proyecto Minecraft Voyager, en el que un agente alimentado por LLM explora el mundo de Minecraft y aprende habilidades sin intervención humana. El agente propone sus propias tareas, construye su propia biblioteca de conocimiento y utiliza ese aprendizaje para avanzar en sus descubrimientos. Sin orientación humana, Voyager da sentido al mundo de Minecraft, construye su propia casa y, eventualmente, explota diamantes.

Dos cosas se destacaron para nosotros: la capacidad del agente para dar sentido a su mundo y su capacidad para formar memorias a largo plazo a través de la experiencia. ¿Y si pudiéramos aprovechar esas habilidades no como un agente autónomo del juego, sino para simular mejor la vida y la compañía?

Prototipo Lumari

Como punto de partida para lo que pretendemos lograr, considera un pequeño momento con un perro llamado Nemo.

  • Percepción: Hemos construido un sistema que convierte el mundo del juego en 3D en lenguaje natural en tiempo real, para que Nemo pueda «percibir» el mundo a su alrededor en cualquier momento.
  • Memoria, personalidad, intención: almacenados e interpretados digitalmente (como archivos de vectores) y evolucionando continuamente a través de nuevas experiencias, como en la vida real.
  • Entrada del usuario: Hemos agregado reconocimiento de voz para comandos de voz del jugador. Pero estos comandos también podrían ser fácilmente entradas de control en cualquier otra forma.

En un instante, Nemo interpreta todo eso y toma su decisión. Actúa rápidamente, alejándose de su dueño e intimidando al intruso, listo para atacar. Después de eso, Nemo es elogiado por su valentía y recompensado con una golosina, reforzando su comportamiento.

Pero ¿qué pasa si Nemo no fuera valiente, sino cobarde? ¿Optaría por ladrar desde lejos, tal vez? ¿Y si el intruso fuera en realidad un amigo que emocionaba al dueño ver? ¿Sería reprendido Nemo por gruñirle a un amigo y, de ser así, se acordaría de ello para la próxima vez? Estos momentos emergentes resaltan las sutilezas de las relaciones en la vida real que no pueden ser preprogramadas. Sin embargo, son estos momentos los que hacen que los compañeros parezcan reales y auténticos. Creemos que la tecnología moderna ha avanzado lo suficiente como para comenzar a abordar estas relaciones sutiles.

Muchos modelos de IA modernos dependen de una arquitectura de red neuronal conocida como «transformers». A través de su mecanismo de atención, los transformers destacan en comprender el contexto y las dependencias en diversas y grandes fuentes de datos. En la simulación de la vida en los juegos, estas fuentes de datos podrían representar la memoria, la percepción, los comandos del usuario y mucho más. Para entender esto mejor, vamos a transformar a Nemo de un perro real en un compañero virtual.

  • Percepción: Hemos desarrollado un sistema que convierte el mundo del juego en 3D en lenguaje natural en tiempo real, para que Nemo pueda «percibir» el mundo que lo rodea en cualquier momento.
  • Memoria, personalidad, intención: se almacenan e interpretan digitalmente (como archivos de vectores) y evolucionan continuamente a través de nuevas experiencias, al igual que en la vida real.
  • Entrada del usuario: Hemos agregado reconocimiento de voz para comandos de voz del jugador. Pero estos comandos también podrían ser fácilmente entradas de control en cualquier otra forma.

A continuación, se incluye una demostración del prototipo.

Para permitir el escenario mencionado, aplicamos una primera capa de un gran modelo de lenguaje para traducir «percepción en intención» al utilizar entradas de percepción, memoria, comandos del usuario y otras pistas. En el caso de Nemo, la salida sería algo como «¡Oh no, mi dueño está en peligro! ¡Necesito proteger a mi dueño!»

Pero esa intención todavía no se convierte en una acción en el juego. Para lograrlo, necesitamos introducir una segunda capa de un gran modelo de lenguaje para traducir «intención en acción»: convirtiendo la intención en comandos de juego ejecutables en tiempo real. Esta segunda capa es particularmente difícil porque necesita comprender la variedad de acciones ejecutables en el contexto de sus intenciones; cualquier comando incorrecto podría bloquear el juego. Por lo tanto, también agregamos una tercera capa de un sistema de IA para autocorregir fallos en la lógica y cambios en el estado del juego en tiempo real.

Finalmente, añadimos un sistema de «aprendizaje en tiempo real por asociación» que registra observaciones y resultados en la memoria, para que cada acción influya en parte de la memoria a largo plazo de Nemo y afecte el resultado de decisiones futuras. Creemos que esta capacidad de aprendizaje continuo será una parte central de las simulaciones de vida en el futuro.

Una observación más: construimos a Nemo por separado del mundo. Nemo percibe, interpreta y aprende del mundo que lo rodea en tiempo real, tal como lo hacemos como jugadores. Esto es diferente del enfoque tradicional para los NPC, que son construidos como «parte del mundo». La arquitectura de Nemo lo «libera» de su entorno y lo abstrae para interactuar con los jugadores en nuevas experiencias, abriendo oportunidades para innumerables aventuras creadas por los propios jugadores en el futuro.

Implicaciones y el futuro

La simulación de vida y compañerismo en los juegos tiene importantes implicaciones. Comercialmente, ha llevado a algunas de las franquicias más duraderas y lucrativas, como The Sims. Para los jugadores, estos compañeros tienen la capacidad de profundizar la participación en los juegos. Además de los juegos, estas búsquedas también simbolizan un acercamiento más profundo a las relaciones y experiencias humanas.

Para ser claros, todavía hay muchos desafíos y elementos no resueltos, y muchas piezas del rompecabezas aún no han sido construidas. Al mismo tiempo, el ritmo de las innovaciones técnicas ha sido impresionante de ver: en cuestión de semanas después del lanzamiento del modelo básico de código abierto de Meta, los investigadores entrenaron modelos ligeros y específicos para aplicaciones que sobresalen en niveles elevados.

Los modelos y tecnologías punteras son solo parte de la respuesta. Para crear experiencias verdaderamente emergentes e inmersivas, los creadores de juegos necesitan combinar tecnología innovadora con una profunda habilidad artística. En Proxima, estamos emocionados de empujar esos límites en la construcción de la próxima generación de experiencias interactivas. Todavía estamos en el inicio de este viaje, y hay mucho más que estamos apuntando a construir. Creemos que es mejor aprender juntos que solos.

Con información de The Decoder.