RobotCat de Google DeepMind peut contrôler plusieurs bras robotiques et s’améliore constamment grâce aux données qu’il génère lui-même.
RobotCat est un agent d’IA auto-améliorant pour la robotique qui apprend une variété de tâches sur plusieurs bras robotiques et génère de manière autonome de nouvelles données d’entraînement pour s’améliorer. Ce faisant, l’équipe cherche à résoudre un problème fondamental dans le domaine de la robotique : les progrès de l’IA peuvent conduire à des robots polyvalents, mais le développement est lent en raison du temps nécessaire pour collecter les données nécessaires dans le monde réel.
Avec Robotic Transformer 1 et des projets comme PaLM-SayCan, Google tente également d’appliquer à la robotique son expertise dans d’autres domaines de l’IA. Toutefois, selon Google DeepMind, RoboCat est le premier agent d’IA capable de résoudre des tâches multiples et de s’adapter à différents robots du monde réel.
Le RobotCat de Google DeepMind est basé sur le Chat de DeepMind
En outre, RoboCat apprend beaucoup plus vite que les autres modèles : l’agent d’intelligence artificielle peut apprendre de nouvelles tâches en 100 à 1 000 démonstrations ; les autres modèles ne peuvent pas atteindre le taux de réussite de RobotCat pour ce nombre de démonstrations.
« Cette capacité contribuera à accélérer la recherche en robotique, car elle réduit la nécessité d’une formation supervisée par l’homme et constitue une étape importante vers la création d’un robot polyvalent », a déclaré l’équipe.
RoboCat est basé sur Cat de DeepMind, qui peut traiter le langage, les images et les actions dans des environnements simulés et réels. L’équipe a apporté quelques adaptations à Cat et a entraîné le modèle à l’aide d’un vaste ensemble de données d’entraînement contenant des séquences d’images et d’actions de différents bras robotisés effectuant des centaines de tâches.
Après cette formation, la phase d’auto-amélioration de RoboCat commence, au cours de laquelle le système apprend à effectuer des tâches inconnues jusqu’alors. La formation se déroule en cinq étapes :
- Collecte de 100 à 1 000 démonstrations d’une nouvelle tâche ou d’un nouveau robot à l’aide d’un bras robotique contrôlé par l’homme.
- Ajustement fin du RoboCat à la nouvelle tâche/au nouveau bras, créant ainsi un agent expert dérivé.
- L’agent dérivé pratique la nouvelle tâche/le nouveau bras en moyenne 10 000 fois, ce qui génère davantage de données d’entraînement.
- Les données de démonstration et les données autogénérées sont intégrées dans l’ensemble de données de formation existant de RoboCat.
- Une nouvelle version de RoboCat est ensuite entraînée en utilisant le nouvel ensemble de données d’entraînement.
La capacité d’apprentissage de RoboCat s’améliore avec l’expérience
En combinant tous ces efforts de formation, RoboCat dispose d’un ensemble de données comprenant des millions de trajectoires de bras robotiques réels et simulés, y compris des données auto-générées. Sur cette base, RoboCat peut apprendre à contrôler de nouveaux bras robotisés, même avec des poignées différentes, en l’espace de quelques heures – et plus RoboCat apprend, mieux l’agent IA peut apprendre les tâches suivantes. Par exemple, la première version de RoboCat, avec 500 exemples, n’a résolu de nouvelles tâches que 36 fois ; la version finale actuelle, avec beaucoup plus de tâches, a doublé le taux de réussite.
« Ces améliorations sont le résultat de l’expérience de plus en plus étendue de RoboCat, de la même manière que les personnes développent une gamme plus diversifiée de compétences à mesure qu’elles approfondissent leur apprentissage dans un domaine particulier », a déclaré l’entreprise. « La capacité de RoboCat à acquérir des compétences de manière indépendante et à s’améliorer rapidement, en particulier lorsqu’elle est appliquée à différents dispositifs robotiques, ouvrira la voie à une nouvelle génération d’agents robotiques à usage général plus utiles »
Pour plus d’informations, voir le billet de blog de Google DeepMind sur RoboCat.