STEVE-1 est un modèle d’IA générative capable d’effectuer des tâches dans Minecraft à l’aide d’instructions textuelles.
Les modèles d’IA capables de répondre à des instructions en langage naturel sont devenus incroyablement populaires, mais la création de modèles capables de suivre des instructions pour des tâches séquentielles complexes reste un défi. Les chercheurs viennent de présenter STEVE-1, un assistant IA capable de suivre une grande variété d’instructions courtes et visuelles dans Minecraft.
STEVE-1 s’appuie sur deux modèles d’IA existants : VPT, un modèle fondamental pré-entraîné sur 70 000 heures de jeu dans Minecraft, et MineCLIP, qui aligne les légendes de texte sur les vidéos Minecraft. À l’aide d’une approche inspirée de la méthode unCLIP de DALL-E 2, les chercheurs ont réglé le VPT pour qu’il suive les objectifs visuels encodés par MineCLIP, puis ont entraîné un module à traduire les invites textuelles en éléments visuels MineCLIP.
Ce modèle en deux étapes permet à STEVE-1 de suivre des instructions textuelles et visuelles dans Minecraft, en utilisant seulement 60 dollars de puissance de calcul et 2 000 exemples étiquetés.
STEVE-1 surpasse de loin les précédents agents d’IA dans Minecraft. Lors des tests effectués, STEVE-1 a nettement surpassé les agents IA précédents dans Minecraft lorsqu’il recevait des instructions pertinentes, collectait beaucoup plus de ressources et explorait davantage, tout en étant capable d’effectuer plusieurs tâches à court terme, telles que couper des arbres, collecter des ressources et explorer, lorsqu’il était invité à le faire par du texte ou des images.
Les chercheurs ont constaté que l’enchaînement des instructions améliorait les performances dans les tâches à long terme, telles que la création d’objets ou la construction de structures, en passant d’un taux de réussite proche de zéro à un taux de 50 à 70 %. L’équipe a également montré que STEVE-1 répondait à des instructions humaines en temps réel, démontrant ainsi son potentiel en tant qu’assistant interactif.
STEVE-1 est un modèle pour les « agents instructifs dans des domaines autres que Minecraft »
Bien que, comme dans l’imagerie, le passage à une instruction plus longue et plus spécifique améliore considérablement les performances de STEVE-1 sur les tâches à long terme, cette méthode est également intuitive et prend du temps, et il reste encore du travail à faire, comme le mentionne l’article.
En travaillant directement à partir de l’entrée brute des pixels et des actions de bas niveau de la souris et du clavier, l’approche pourrait être appliquée plus largement pour créer des agents instructibles dans des domaines autres que Minecraft, selon l’équipe. Les travaux futurs porteront sur l’amélioration de la capacité de STEVE-1 à traiter des instructions plus longues et plus complexes en incorporant de grands modèles de langage pour aider l’agent à planifier et à exécuter des tâches en plusieurs étapes.
De plus amples informations et le code sont disponibles sur la page du projet STEVE-1.
Régénérer la réponse