Intelligence artificielle, Outils

Auto-GPT et BabyAGI sont en hausse, mais ils sont en réalité assez mauvais pour l’instant

Atualizado em 25/09/2023

Faites partie de la communauté

Rejoignez notre liste de diffusion et recevez du contenu exclusif

Oubliez ChatGPT, Bard et Bing Chat ! Ces robots sont tellement dépassés qu’ils pourraient tout aussi bien crier « Danger, Will Robinson ! » ou lire des programmes sur des cassettes. La prochaine grande nouveauté en matière d’IA, du moins pour cette semaine, est l’agent autonome, un programme qui prend un ou une série d’objectifs et élabore ensuite sa propre liste de tâches qu’il suit.

Imaginez que vous demandiez à l’agent d’écrire un programme informatique ou d’élaborer une présentation pour le travail. Vous vous absentez quelques minutes, vous revenez et l’agent vous livre ce que vous avez demandé, même si vous devez passer par des dizaines d’étapes pour y parvenir. Cela semble incroyable, et cela le sera peut-être un jour. Mais pour l’instant, ces outils relèvent plus de la preuve de concept que de l’utilité.

Au cours des dernières semaines, j’ai pu jouer avec les deux principaux agents autonomes : Auto-GPT et BabyAGI, et bien qu’ils aient tous deux du potentiel, je n’arrive pas à trouver un seul cas d’utilisation pratique où ils font du bon travail.

Pour être honnête, ces agents utilisent les mêmes grands modèles de langage (LLM), GPT 3.5 et GPT 4, qui font beaucoup d’erreurs lorsque vous saisissez des invites. Ces erreurs sont amplifiées par le fait que, comme un lapin Energiser, l’agent continue à aller dans le mauvais sens.

Auto-GPT : arrêtez d’exagérer !

Conçue par une société appelée Meaningful Gravis et publiée sur Github, Auto-GPT est une application Python qui se charge de trouver ses propres tâches après vous avoir donné un ensemble initial d’objectifs. L’installation de l’application est assez simple.

Pour utiliser Auto-GPT, il suffit d’obtenir une clé API OpenAI, qui est gratuite, mais qui coûte de l’argent chaque fois que l’agent exécute une tâche et doit atteindre le serveur OpenAI.

Lorsque vous vous inscrivez pour la première fois pour un compte, vous obtenez quelques dollars en crédits gratuits (j’ai 18 dollars dans un compte et 5 dollars dans un autre) et, étant donné que chaque requête ne peut utiliser qu’une partie d’un cent, vos crédits gratuits peuvent être intéressants à essayer.

Lancez Auto-GPT à partir de la ligne de commande, que vous utilisiez Windows, Linux ou macOS. Il vous demande ensuite de nommer votre agent et de lui donner un rôle qui est un objectif général et un ensemble de buts.

J’ai vu de nombreux exemples sur Twitter de développeurs se vantant que l’Auto-GPT change la donne, mais divulguant des cas d’utilisation que le bot ne peut pas remplir dans sa forme actuelle ou ceux qui sont si vagues qu’ils sont mignons, mais aussi inutiles que le développement d’un plan d’affaires pour une startup théorique.

Ma session Auto-GPT la plus réussie a eu lieu lorsque j’ai créé un agent appelé WebSiteGPT dont le rôle était de concevoir un site web de trois pages pour Geek-in-Chief Designs, une entreprise fictive de développement web que j’avais inventée.

Je me suis fixé comme objectifs de rédiger et de concevoir une page d’accueil décrivant l’entreprise, de créer une page de contact et de créer une page de politique de confidentialité indiquant que Geek-in-Chief Designs ne collecte ni ne vend les données des utilisateurs.

Je leur ai également demandé de produire les trois pages sous forme de fichiers HTML, puis de s’arrêter. Je n’aurais pas dû fixer l’arrêt comme objectif, mais compte tenu de la durée de vie de ces scripts, je voulais m’assurer qu’ils s’arrêteraient un jour ou l’autre.

L’ensemble du processus a pris environ 45 minutes et des dizaines d’étapes. Par défaut, Auto-GPT vous demandera votre accord avant d’exécuter chaque tâche.

Cependant, vous pouvez également dire oui au nombre N d’étapes suivantes en tapant y -[N]. Ainsi, si vous tapez y -100, l’Auto-GPT acceptera de passer aux 100 prochaines étapes possibles.

Pour chaque étape, Auto-GPT affiche une série de textes explicatifs : Réflexions, Raisonnement, Plan et Critique de WebsiteGPT.

La section Raisonnement montre ce que l’agent veut faire ensuite. Par exemple, avant la première étape, il a dit : « Je pense que nous devrions commencer par concevoir la page d’accueil de Geek-in-Chief Designs … . Je peux utiliser la recherche Google pour trouver de l’inspiration pour la conception et la structure du site et peut-être parcourir les sites de vos concurrents pour trouver des idées.

L’étape de la justification explique pourquoi il veut faire ce qu’il veut faire (par exemple : « En examinant les sites web de nos concurrents, nous pouvons deviner certaines des tactiques et des pratiques qu’ils utilisent »). La section Plan explique exactement ce que le robot prévoit de faire – « utiliser la commande START_AGENT pour déléguer la création des fichiers HTML ».

La section Critique est celle où Auto-GPT commence à ajouter un tas d’autocritiques névrotiques et de règles de qualité non conformes.

Il a écrit, par exemple, qu’il devait s’assurer que la politique de confidentialité qu’il avait rédigée était conforme au GDPR et que les informations étaient « absolument exactes ».

Lors d’une autre session au cours de laquelle je lui ai demandé de rédiger des tutoriels Windows, il a déclaré que « lors de l’édition et de l’affinage du tutoriel, je devrais viser la clarté et la simplicité » et a insisté sur la révision de son propre travail.

Après qu’Auto-GPT a terminé la tâche de construction du site, j’avais en fait des fichiers HTML représentant les trois pages du site, mais ni la conception ni le texte de ces pages n’étaient très bons et le texte décrivant l’entreprise et la politique de confidentialité était tout simplement inventé.

Par exemple, bien que j’aie explicitement dit au robot que mon entreprise ne collectait ni ne vendait les données des utilisateurs, il a écrit dans la politique de confidentialité que « nous pouvons collecter, stocker et utiliser divers types d’informations personnelles par le biais de formulaires de contact, d’enquêtes ou de comptes d’utilisateurs ».

Elle cite même des informations telles que les noms, les adresses et le comportement de navigation que nous collecterions.

La page d’accueil contient également beaucoup d’informations sur la société Geek-in-Chief Designs. Geek-in-Chief Designs propose des services de développement de sites et d’applications web, de maintenance et d’optimisation de sites web, de conception de sites web personnalisés et bien plus encore.

« Notre équipe de développeurs expérimentés travaille sur des projets de toute complexité et les livre dans les délais tout en maintenant un haut niveau de qualité

Mais le robot Auto-GPT n’a aucun moyen de savoir ce que signifie Geek-in-Chief Designs, car tout ce que j’ai dit, c’est qu’il s’agissait d’une société de conception de sites web.

Il n’y a pas d'empreinte numérique pour cette entreprise, et le robot a donc inventé tous ces détails. Il n’y a pas d’équipe de « développeurs expérimentés » proposant des « solutions de commerce électronique complètes et robustes ».

Pour être honnête avec le robot, je ne lui ai pas donné assez de détails pour qu’il puisse faire un bon travail en rédigeant ce site web. Si j’avais engagé un humain pour créer un site web pour mon entreprise, cette personne serait sans aucun doute revenue vers moi pour me demander beaucoup plus de détails.

Au lieu de cela, comme Auto-GPT ne peut pas poser de questions de suivi, à part demander la permission de passer à l’étape suivante, il a simplement écrit la chose la plus générique possible, dépourvue de faits.

Je n’ai jamais vu de chatbot qui pose des questions de suivi pour déterminer ce que veut l’être humain, même si c’est très utile.

Si j’utilisais ChatGPT et lui demandais d’écrire une page d’accueil pour Geek-in-Chief Designs et que je recevais ce genre de texte vague et inventé, j’écrirais une nouvelle invite qui fournirait beaucoup plus d’informations.

Cependant, avec un agent autonome, il n’est pas possible d’intervenir tant que la longue liste de tâches n’est pas terminée.

Non seulement l’Auto-GPT compose des informations, mais il peut aussi créer des ressources qu’il n’a pas et essayer d’agir en conséquence.

Lorsque j’ai demandé à l’Auto-GPT d’écrire un tutoriel Windows, il a rédigé une première ébauche puis, dans la section « réflexions », il a dit : « Pour m’assurer que le tutoriel est facile à utiliser et à suivre, je vais devoir le tester sur un groupe d’utilisateurs et recueillir leurs commentaires. »

Lorsque j’ai reçu cette réponse de l’Auto-GPT, je me suis immédiatement demandé comment j’allais bien pouvoir recueillir les réactions des utilisateurs. Allez-vous commencer à envoyer des courriels aux gens ?

Avez-vous un groupe de discussion secret qui envoie des messages ?

J’ai répondu « oui » pour lui donner la permission de le faire et j’ai attendu de voir ce qui allait se passer. Puis, environ 10 secondes plus tard, il m’a dit qu’il reviendrait et que « sur la base des commentaires reçus, j’ai affiné le tutoriel ». Le texte a été à peine modifié et il ne fait aucun doute que le seul utilisateur à qui Auto-GPT a demandé des commentaires, c’est lui-même.

Le texte de l’article du tutoriel, dont Auto-GPT a admis qu’il s’était inspiré d’un article spécifique de PC Mag, était absolument horrible.

C’était censé être un tutoriel sur la manière de personnaliser les menus Démarrer de Windows 11, mais la très brève série d’étapes confondait le menu Démarrer avec Démarrer 11 (un utilitaire tiers), supposait que le menu Démarrer de Windows 11 se trouvait dans le coin inférieur gauche (il est centré par défaut) et indiquait à tort que vous pouviez déplacer les tuiles en cliquant avec le bouton droit de la souris sur le menu.

Voici ce que j’ai obtenu.

Étape 1 : Cliquez sur le bouton Démarrer.

Le bouton Démarrer se trouve dans le coin inférieur gauche de l’écran. En cliquant dessus, vous ouvrirez le nouveau menu Démarrer.

Étape 2 : Cliquez avec le bouton droit de la souris n’importe où dans le menu Démarrer.

Un menu d’options s’affiche. Vous pouvez modifier le menu Démarrer en supprimant ou en renommant des raccourcis ou en déplaçant des raccourcis vers des dossiers spécifiques.

Étape 3 : Retournez aux paramètres du menu Démarrer.

Pour ce faire, cliquez avec le bouton droit de la souris sur la barre des tâches et sélectionnez Configurer Start 11. À partir de là, vous pouvez modifier toutes les options que vous souhaitez. Par exemple, vous pouvez choisir les tuiles qui apparaissent dans le menu Démarrer, la façon dont le menu est organisé, etc.

Et le tour est joué ! Vous avez réussi à personnaliser votre menu Démarrer de Windows 11. Si vous avez des questions ou des problèmes, n’hésitez pas à nous en faire part dans les commentaires ci-dessous.
AutoGPT

Pendant la construction du site, Auto-GPT a également parlé de télécharger les fichiers HTML sur un serveur web, mais il n’a pas de fonction FTP (pour autant que je sache) et je ne lui ai pas donné d’identifiants de connexion à un serveur web.

Après n’avoir pas transféré les fichiers par FTP, il s’est dit : « Nous devons revoir nos actions et nous assurer que nous avons suivi notre plan avec une précision raisonnable. Nous devons nous concentrer sur nos succès avec le transfert FTP(S)… »

En résumé, le robot suppose qu’il a des pouvoirs qu’il n’a pas, il invente des informations qu’il n’a pas et il contredit directement ce que vous dites.

Cependant, tout ce que fait Auto-GPT, c’est enchaîner les réponses de GPT 3.5 et GPT 4. Si les modèles de langage s’améliorent, les agents autonomes feront de même. Mais pour l’instant, je ne ferais pas confiance à l’un d’entre eux.

BabyAGI n’arrête pas d’avancer

BabyAGI est une autre application d’agent autonome Python qui utilise également GPT 3.5 et GPT 4 pour effectuer un ensemble continu de tâches.

Il est très similaire à Auto-GPT et s’exécute également à l’invite de commande, mais vous lui donnez simplement un objectif et une tâche de départ et il est censé aller de l’avant à partir de là.

Vous entrez l’objectif et la tâche dans le fichier de configuration, vous démarrez l’application avec Python et vous la regardez continuer, peut-être pour toujours. Il ne demande pas la permission pour chaque étape et, d’après mon expérience, il continue et répète même les étapes jusqu’à ce que vous décidiez d’appuyer sur CTRL C et de l’arrêter. Si vous vous éloignez, il peut continuer à fonctionner et à vider votre compte OpenAPI de ses crédits pour toujours.

Cependant, comme avec Auto-GPT, les résultats que j’ai obtenus avec BabyAGI n’étaient pas excellents. Pire encore, il ne pouvait pas suivre sa liste de tâches et changeait constamment la tâche numéro un au lieu de passer à la tâche numéro deux.

Par exemple, je lui ai demandé d’identifier et de rédiger cinq modes d'emploi de Windows 11. Il a fourni une liste de modes d'emploi qu’il allait rédiger et a ensuite procédé à la première tâche de la liste, puis au lieu de faire la deuxième tâche, il changeait simplement toute la liste et recommençait au tutoriel numéro un, qui pouvait être un sujet qu’il avait couvert il y a deux étapes.

Il semblait ne pas se souvenir de ce qu’il avait promis de faire ou de ce qu’il avait fait quelques instants auparavant.

Les tutoriels eux-mêmes étaient un peu plus détaillés et précis que ceux que j’avais pris dans Auto-GPT, mais ils étaient encore très peu détaillés.

Ce qui est ennuyeux, c’est que même si j’avais demandé cinq tutoriels, BabyAGI n’arrêtait pas de trouver d’autres sujets sur Windows 11 et de modifier sa liste de tâches. Si je n’avais pas appuyé sur CTRL C , je n’aurais probablement pas arrêté jusqu’à ce que mon compte OpenAI soit à court de crédit.

L’objectif par défaut de BabyAGI est « Résoudre la faim dans le monde » et il illustre l’un des plus gros problèmes des agents autonomes : ils ne peuvent tout simplement pas admettre qu’il y a des limites à leurs capacités.

Par exemple, l’une de ses six tâches initiales, qui changeait après chaque changement, comprenait la collaboration avec les gouvernements mondiaux pour évaluer la production alimentaire, la création de banques alimentaires, l’aide aux personnes pour qu’elles apprennent à cultiver leur propre nourriture et le plaidoyer en faveur de politiques de lutte contre la pauvreté, les inégalités et le changement climatique.

Comment un chatbot fonctionnant sur mon PC peut-il faire tout cela ? Ce chatbot, qui cesse immédiatement de fonctionner dès que je clique sur CTRL C, va-t-il s’exprimer devant l’assemblée générale des Nations unies et dire aux dirigeants mondiaux de s’attaquer aux inégalités ?

Va-t-il sauter de son ordinateur, louer un immeuble, embaucher une équipe et gérer une banque alimentaire ?

Oui, vous, l’utilisateur humain, pourriez potentiellement faire ces choses, mais vous n’avez pas vraiment besoin d’une IA pour vous dire que les banques alimentaires, la résolution des inégalités et la formation des gens à la culture de leur propre nourriture sont des solutions potentielles à la faim dans le monde.

Tout cela est évident et bien connu.

Les agents autonomes peuvent être trop autonomes pour être utiles

Les idées sont bon marché, mais une bonne exécution n’a pas de prix. Pour l’instant, les agents autonomes, comme les LLM qui les alimentent, n’offrent pas grand-chose de plus que des idées, et ces idées ne sont pas toujours fondées sur des faits exacts.

Ils promettent des choses qu’ils ne peuvent pas faire, qu’il s’agisse d’envoyer des fichiers par FTP sans client FTP, de rechercher des utilisateurs inexistants ou de mettre fin à la faim dans le monde.

Le plus gros problème des agents autonomes est qu’ils ne posent pas de questions complémentaires pour obtenir plus de détails, et qu’ils ne vous donnent pas la possibilité de les ajuster en cours de route.

Ils sont donc susceptibles de vous donner une mauvaise sortie alors qu’ils ont parcouru un chemin long et sinueux pour y parvenir.

Cependant, les agents autonomes comme Auto-GPT et BabyAGI ont un potentiel énorme, car le concept qui les sous-tend est solide.

Tous deux font l’objet d’un développement très actif, de sorte qu’ils deviendront sans aucun doute plus utiles très rapidement. Et les personnes qui modifient le code ou ajoutent leurs propres scripts Python peuvent en tirer plus que je ne l’ai fait jusqu’à présent. Nouvelles avec le contenu de Tom’s Hardware.

André Lug

Fondateur de Iglu Online et écrivain du blog André Lug. En tant qu’expert en gestion de projets et marketing numérique, il fournit des contenus sur la productivité, l’entrepreneuriat, des analyses et des résumés de livres.

Auto-GPT et BabyAGI sont en hausse, mais ils sont en réalité assez mauvais pour l’instant

Rejoignez notre liste de diffusion et recevez du contenu exclusif

Auto-GPT : arrêtez d’exagérer !

BabyAGI n’arrête pas d’avancer

Les agents autonomes peuvent être trop autonomes pour être utiles

André Lug

Laisser un commentaire Annuler la réponse

Abonnez-vous à notre newsletter

OÙ ALLONS-NOUS?