Notre collaborateur invité, Ran Mo, parle de l’utilisation de l’IA pour simuler la vie dans les jeux vidéo. En tant qu’ancien responsable de produit chez EA, il a travaillé sur un classique dans ce domaine : Les Sims. Maintenant, il souhaite repousser les limites.

La simulation de la vie, des amitiés et des compagnons a été une quête incessante dans les jeux vidéo. Des mises en œuvre simples dans Tamagotchi et Pokémon aux vies complexes des Sims, l’intégration de compagnons virtuels a profondément touché des millions de joueurs et a formé la base de certaines des franchises les plus durables.

Dans son essence, le processus de création de compagnons numériques est également une recherche pour mieux comprendre la nature de la sensibilité. Et, comme nous le verrons, les techniques utilisées auront des applications de grande envergure au-delà des jeux.

À mesure que la technologie, en particulier l’IA, devient plus puissante, de nouvelles opportunités s’ouvrent pour réimaginer la vie numérique et les compagnons. Cet essai est divisé en deux parties. La Partie 1 trace certains des jalons historiques les plus importants dans la simulation de la vie numérique. La Partie 2 explore nos efforts chez Proxima pour faire progresser cette quête. Commençons !

Le point de départ : Scripter « la vie » dans les jeux vidéo

Le point de départ de la programmation moderne de jeux vidéo est le scripting. Le scripting est un terme large qui englobe de nombreux concepts, allant de programmes très simples à des arbres de décision complexes et des machines d’états. Cependant, fondamentalement, le scripting ne traite pas de « vraie intelligence », mais plutôt de réponses déterministes qui suivent un ensemble de règles prédéfinies – essentiellement des versions numériques de livres d’aventure où vous choisissez votre propre chemin.

Malgré sa nature mécanique, le scripting peut être incroyablement puissant pour créer une immersion. Mass Effect et Dragon Age, deux franchises populaires de BioWare, utilisent le scripting pour créer des opportunités de relations profondes avec les compagnons des joueurs. En fonction de leurs choix, les joueurs peuvent débloquer des histoires de fond, influencer le résultat du jeu et même former des relations romantiques avec les compagnons numériques. La popularité des deux franchises est un témoignage du pouvoir de la narration immersive créée par les humains.

Le défi avec le scripting est, en fin de compte, l’évolutivité. Les concepteurs doivent non seulement concevoir chaque interaction manuellement, mais également prendre en compte toutes les combinaisons possibles de choix du joueur. Cela signifie que le coût du contenu augmente de manière exponentielle à mesure que l’expérience du joueur progresse. Prenons l’exemple suivant : un joueur choisit entre trois options différentes pour une interaction spécifique. En fonction de son choix, trois nouvelles options apparaissent, et ainsi de suite, totalisant 30 choix tout au long du jeu. Cette séquence de décisions (en supposant qu’il n’y ait pas de chevauchement) nécessiterait plus de scénarios préprogrammés que de grains de sable sur Terre ! Il est clair qu’une approche différente est nécessaire pour créer une immersion à grande échelle.

Les Sims et l’IA basée sur l’utilité

J’ai eu l’opportunité de travailler sur la franchise Les Sims chez EA, et c’était incroyable de voir la passion que la franchise suscite. Actuellement, plus de 70 millions de personnes jouent aux Sims. La quatrième édition du jeu a déjà rapporté plus de 2 milliards de dollars et continue de gagner en popularité.

Au cœur de la franchise se trouvent les Sims – des compagnons numériques autonomes avec leurs propres besoins, préférences et désirs. Les joueurs peuvent les contrôler de temps en temps ou créer des environnements plus vastes pour eux. Mais ces agents sont également tout à fait capables de mener leur propre vie. Contrairement aux histoires pré-planifiées et scénarisées de Mass Effect, Les Sims met l’accent sur les récits émergents qui se forment à travers ces compagnons autonomes. En termes plus simples, les Sims sont une simulation de vie.

Will Wright, le créateur des Sims, s’est inspiré de deux sources pour sa « maison de poupées virtuelle » : la première était la « Théorie de la Motivation Humaine » de Maslow, dans laquelle les désirs humains sont catégorisés en hiérarchies. La seconde était le livre « Maps of the Mind » de Charles Hampden-Turner, dans lequel les pensées sont cataloguées et organisées.

La combinaison de ces deux sources a inspiré le moteur d’IA des Sims, connu sous le nom d’IA basée sur l’utilité. Dans ce système, l’IA équilibre deux éléments : les commodités et les utilités. Les commodités représentent les états internes, ou les besoins psychologiques, de chaque Sim, et les courbes d’utilité représentent les moyens de satisfaire ces commodités. Par exemple, un besoin interne (la commodité) pourrait être la « faim », et différentes options alimentaires (cuisiner ou réchauffer des restes) représentent des moyens de satisfaire ce besoin. L’IA évalue simultanément des centaines de besoins et de décisions associées – le besoin de manger, le besoin d’appartenir, le besoin de trouver l’amour – et les hiérarchise dans la prise de décision. À bien des égards, cela n’est pas très différent de la façon dont nous prenons des décisions en tant qu’être humain !

Cependant, malgré les nombreux succès de l’IA des Sims, il semble qu’il manque quelque chose. Chaque Sim semble être pris dans un cycle perpétuel d’auto-optimisation, aveugle à l’univers au-delà de ses besoins immédiats. Il lui manque la capacité d’établir des connexions avec les joueurs au-delà de la portée de ses propres besoins. Les relations authentiques dépassent la simple optimisation ; elles impliquent d’apprendre, d’expérimenter et de grandir ensemble. Pour atteindre cet objectif, nous avons besoin d’une approche différente.

Black & White et l’apprentissage par renforcement

Le jeu Black & White est sorti en 2001. Black & White était un « jeu de dieu » dans lequel les joueurs jouaient le rôle d’êtres divins gouvernant des citoyens malheureux. Mais la véritable star était une créature compagnon que les joueurs influençaient indirectement. La créature avait le pouvoir de nourrir ou de détruire et avait ses propres intentions et désirs.

Les joueurs ne pouvaient pas contrôler directement la créature compagnon, mais ils pouvaient influencer ses décisions par le biais de récompenses et de punitions (par exemple, caresser et frapper), et avec le temps, grâce à ces actions, façonner la créature pour le bien ou le mal – d’où le nom « Black & White ».

Sans que les joueurs le sachent, la créature était contrôlée par des algorithmes d’apprentissage par renforcement. Les actions des joueurs, comme les caresses et les coups, devenaient les entrées d’entraînement qui façonnaient les désirs, les croyances et les intentions de la créature au fil du temps. En termes plus simples, la créature pouvait apprendre.

Black & White a été l’un des premiers jeux à utiliser l’intelligence artificielle moderne dans les jeux. Ce fut un succès commercial et critique, la IGN le qualifiant d ‘ »expérience miraculeuse ». Mais Black & White était également bien en avance sur son temps : il était sévèrement limité par les algorithmes et la puissance de traitement de son époque. Les processeurs n’avaient qu’une fraction infime de leur puissance actuelle, et les GPU dédiées – nécessaires pour le traitement moderne de l’IA – en étaient encore à leurs débuts.

Cependant, en signe d’intimité entre les jeux vidéo et la technologie de pointe, l’histoire de Black & White ne s’est pas arrêtée là. Le programmeur d’IA du jeu était un jeune ingénieur nommé Demis Hassabis. Après Black & White et d’autres aventures dans l’industrie du jeu, Hassabis est retourné à l’école pour terminer son doctorat en neurosciences cognitives. Après l’obtention de son diplôme, Hassabis a fondé la société d’intelligence artificielle DeepMind, où il est toujours PDG aujourd’hui. En 2014, DeepMind a été acquise par Google pour environ 500 millions de dollars, et en 2016, l’entreprise a été mise en avant lorsque son programme AlphaGo a battu un champion mondial au jeu ancestral du Go. Aujourd’hui, la technologie d’apprentissage par renforcement de DeepMind est utilisée pour tout, de la prédiction de la structure des protéines à l’amélioration de l’efficacité des parcs éoliens. C’est curieux de penser que tout cela a commencé avec la création de compagnons numériques dans les jeux.

Aujourd’hui et au-delà

La récente innovation en IA a ravivé l’intérêt pour la simulation de la vie dans les jeux. Une approche consiste à incorporer directement des chatbots de conversation dans le jeu, comme dans ce mod Elder Scrolls. Cette approche est attrayante car elle est relativement facile à visualiser et à mettre en œuvre : connecter un chatbot à un avatar du jeu, intégrer la reconnaissance vocale et textuelle à la parole, ajouter une bonne dose de lore du jeu, et voilà, vous avez un PNJ parlant authentique !

Mais de telles mises en œuvre sont relativement superficielles et ne sont pas de véritables simulations de la vie. Le jeu agit simplement comme un cadre pour le chatbot, et la nouveauté de ces expériences peut rapidement s’épuiser.

En revanche, une mise en œuvre plus profonde est le projet Minecraft Voyager, dans lequel un agent alimenté par LLM explore le monde de Minecraft et apprend des compétences sans intervention humaine. L’agent proposait ses propres tâches, construisait sa propre bibliothèque de connaissances et utilisait ces apprentissages pour avancer dans ses découvertes. Sans aucune orientation humaine, Voyager donnait un sens au monde de Minecraft, construisait sa propre maison et finissait par extraire des diamants.

Deux choses nous ont frappés : la capacité de l’agent à donner un sens à son monde et sa capacité à former des souvenirs à long terme grâce à l’expérience. Et si nous pouvions exploiter ces compétences non pas comme un agent de jeu autonome, mais plutôt pour mieux simuler la vie et la compagnie ?

Prototype Lumari

Comme point de départ pour ce que nous cherchons à atteindre, considérons un tout petit moment avec un chien appelé Nemo.

  • Perception : Nemo voit une personne inconnue et au visage effrayant s’approcher de son maître.
  • Entrée : Le maître crie fort et agite les bras.
  • Mémoire et personnalité : Nemo se souvient qu’il est très protecteur envers son maître et qu’il est courageux lorsque son maître est menacé.

En un instant, Nemo interprète tout cela et prend sa décision. Il agit rapidement, sautant entre son maître et l’intrus, grognant de manière menaçante, prêt à attaquer. Après cela, Nemo est félicité pour son courage et récompensé avec une friandise, renforçant ainsi son comportement.

Mais que se passerait-il si Nemo n’était pas courageux, mais peureux ? Opterait-il pour aboyer de loin, peut-être ? Et si l’intrus était en réalité un ami que le maître était ravi de voir ? Nemo serait-il réprimandé pour avoir grogné contre un ami et, le cas échéant, s’en souviendrait-il pour la prochaine fois ? Ces moments émergents mettent en lumière les nuances des relations dans la vie réelle qui ne peuvent pas être préprogrammées. Pourtant, ce sont ces moments qui donnent aux compagnons l’apparence d’être réels et authentiques. Nous pensons que la technologie moderne a progressé au point où nous pouvons commencer à aborder ces relations subtiles.

De nombreux modèles d’IA modernes dépendent d’une architecture de réseau neuronal connue sous le nom de « transformers ». Grâce à leur mécanisme d’attention, les transformers excellent à comprendre le contexte et les dépendances dans de nombreuses sources de données volumineuses et diverses. Dans la simulation de la vie dans les jeux, ces sources de données pourraient représenter la mémoire, la perception, les commandes de l’utilisateur et bien plus encore. Pour mieux comprendre cela, transformons Nemo d’un chien réel en un compagnon virtuel.

  • Perception : Nous avons construit un système qui convertit le monde en 3D du jeu en langage naturel en temps réel, afin que Nemo puisse « percevoir » le monde qui l’entoure à tout moment.
  • Mémoire, personnalité, intention : stockés et interprétés numériquement (comme des fichiers de vecteurs) et évoluant continuellement grâce à de nouvelles expériences, tout comme dans la vie réelle.
  • Entrée de l’utilisateur : Nous avons ajouté une reconnaissance vocale pour les commandes vocales du joueur. Mais ces commandes pourraient également être facilement des entrées de contrôle sous n’importe quelle autre forme.

Nous incluons ci-dessous une démonstration du prototype.


Pour rendre possible le scénario mentionné, nous avons appliqué une première couche d’un grand modèle de langage pour traduire « perception en intention » en utilisant des entrées de perception, de mémoire, de commandes de l’utilisateur et d’autres indices. Dans le cas de Nemo, la sortie serait quelque chose comme « Oh non, mon maître est en danger. Je dois protéger mon maître ! »

Mais cette intention n’est pas encore une action dans le jeu. Pour y parvenir, nous devons introduire une deuxième couche d’un grand modèle de langage pour traduire « intention en action » : en convertissant l’intention en commandes de jeu exécutables en temps réel. Cette deuxième couche est particulièrement difficile car elle doit comprendre la variété d’actions exécutables dans le contexte de ses intentions ; toute commande incorrecte pourrait bloquer le jeu. Par conséquent, nous avons également ajouté une troisième couche d’un système d’IA pour l’autocorrection des erreurs de logique et les changements d’état du jeu en temps réel.

Enfin, nous avons ajouté un système d’apprentissage en temps réel par association qui enregistre les observations et les résultats dans la mémoire, de sorte que chaque action influence une partie de la mémoire à long terme de Nemo et affecte le résultat de ses décisions futures. Nous croyons que cette capacité d’apprentissage continu sera au cœur des simulations de vie futures.

Une autre observation : nous avons construit Nemo séparément du monde. Nemo perçoit, interprète et apprend du monde qui l’entoure en temps réel, tout comme nous le faisons en tant que joueurs. Cela diffère de l’approche traditionnelle des PNJ, qui sont construits comme étant « partie du monde ». L’architecture de Nemo le « libère » de son environnement et l’abstrait pour interagir avec les joueurs dans de nouvelles expériences, ouvrant des opportunités pour d’innombrables aventures créées par les joueurs eux-mêmes à l’avenir.

Implications et avenir

La simulation de la vie et de la camaraderie dans les jeux a des implications importantes. Sur le plan commercial, cela a conduit à certaines des franchises les plus durables et les plus lucratives, telles que Les Sims. Pour les joueurs, ces compagnons ont la capacité d’approfondir leur engagement dans les jeux. Au-delà des jeux, ces quêtes symbolisent également une approche plus profonde des relations et des expériences humaines.

Pour être clair, il reste encore de nombreux défis et éléments non résolus – et de nombreuses pièces du puzzle restent encore à construire. En même temps, le rythme des innovations techniques a été impressionnant à observer : en quelques semaines seulement après la publication du modèle de base en code ouvert de Meta, les chercheurs ont formé des modèles légers et spécifiques pour des applications qui se démarquent à des niveaux élevés.

Les modèles et les technologies de pointe ne sont qu’une partie de la réponse. Pour créer des expériences vraiment émergentes et immersives, les créateurs de jeux doivent combiner une technologie innovante avec une profonde compétence artistique. Chez Proxima, nous sommes enthousiastes à l’idée de repousser ces frontières dans la construction de la prochaine génération d’expériences interactives. Nous en sommes encore au début de ce voyage, et il y a beaucoup plus que nous cherchons à construire. Nous croyons qu’il est préférable d’apprendre ensemble plutôt que seul.

Avec les informations du The Decoder.