En général, personne ne répond lorsque vous vous parlez à vous-même. L’IA peut combler cette lacune.
Dans un fil de discussion sur le subreddit r/singularity, un utilisateur a présenté son dernier projet : un grand modèle de langage qu’il a entraîné avec 100 heures d’entretiens qu’il a lui-même menés. Désormais, l’utilisateur UsedRow2531 peut mener des entretiens avec une « version fantôme locale » de lui-même.
Il explique que le projet a nécessité beaucoup d’expérimentation et « de nombreuses nuits passées à parler avec moi-même ». Il a souligné que le succès du projet dépendait moins de la méthode que de la qualité du corpus d’entretiens.
La méthodologie importe peu, c’est le corpus qui est crucial
Il a choisi le modèle Vicuna après avoir obtenu des « résultats étranges » avec Metas LLaMA 2 (llama-2-70b-hf). Il ne savait pas si cela était dû à des modifications incorrectes qu’il avait apportées ou si le modèle ne faisait vraiment pas ce qu’il était censé faire.
De manière pratique, son modèle peut également indiquer la source, ce qui permet de retracer la période d’où provient la réponse.
Google, l’ingénierie et de nombreuses nuits passées à me parler comme un fou. La méthode n’a pas d’importance. Ce qui compte, c’est la qualité du corpus d’entretiens. Avec un ensemble massif de données, le « comment » n’a pas de sens. Ce modèle a été entraîné sur moi jusqu’en 2019. Je ne l’ai pas encore alimenté avec des données de 2019 à 2023. Il s’agit uniquement d’une validation de principe pour m’assurer que je suis sur la bonne voie.
u/UsedRow2531 sur Reddit
Le post a reçu une réponse positive de la part de la communauté Reddit. De nombreux utilisateurs ont été impressionnés et ont demandé des instructions précises sur la manière de créer un « jumeau numérique » d’eux-mêmes. D’autres se sont interrogés sur les applications possibles de projets similaires, notamment la possibilité d’entraîner un modèle d’IA avec des courriels personnels.
De nouveaux outils pour les historiens et les chercheurs ?
Les discussions autour de la contribution de UsedRow2531 ont également donné lieu à des réflexions philosophiques sur l’avenir des autobiographies et des documents personnels.
L’utilisateur u/Pelumo_64 a émis l’hypothèse qu’une personne pourrait rassembler ses pensées dans un journal numérique, dont le texte serait généré à partir d’enregistrements audio selon les besoins. Ce texte serait converti en un robot interactif capable de répondre à des questions.
Les questions pourraient porter sur la vie quotidienne ou sur les croyances de la personne. Selon u/Pelumo_64, un tel robot pourrait être un outil précieux pour les anthropologues, les historiens et les enquêteurs criminels afin d’approfondir les pensées et la vie quotidienne des gens.
Le « fantôme » a également des hallucinations
Toutefois, le projet reproduit les lacunes bien connues des modèles linguistiques classiques. Ces lacunes ne posent peut-être pas de problème dans la sphère privée, mais elles montrent aussi que le métier de biographe professionnel n’est pas près de disparaître.
Malgré une base de données soigneusement sélectionnée, le modèle d’IA a affiché des comportements inattendus. Il a notamment répété plusieurs fois qu’il était un génie et qu’il croyait en l’existence des extraterrestres. Il s’agit d’aspects que l’utilisateur u/UsededRow2531 n’a jamais mentionnés dans ses entretiens initiaux.
Je n’ai jamais dit cela. J’ai tout vérifié. Les choses sont déformées lorsque je les corrige. LLM a analysé ce que j’ai dit et a décidé que j’étais un génie. Je ne suis pas un génie, et je ne considère pas cela comme un génie. Tout cela est très étrange.
u/UsedRow2531 sur Reddit
L’utilisateur u/More_Grocery-1858 a une réponse plausible : le modèle fonctionne avec des probabilités statistiques et reconnaît donc les différentes connexions entre les mots.
Les personnes qui ont tenu des propos similaires à ceux de l’auteur original se considèrent elles aussi comme des génies. Cela conduit à l’effet illustré, même si l’auteur du sujet initial ne se qualifie pas lui-même de génie.
Le concept n’est pas vraiment nouveau. Fin 2022, une artiste a eu l’idée de nourrir le GPT-3 d’extraits de journaux intimes de son enfance pour mieux se connaître. Et que dit l’inventeur lui-même, u/UsededRow2531, à propos de ce projet ? « Le futur va être bizarre »
Avec le contenu de The Decoder.