STEVE-1 é um modelo de IA generativo que pode executar tarefas em Minecraft usando instruções em texto.
Modelos de IA que podem responder a instruções em linguagem natural se tornaram incrivelmente populares, mas criar modelos que possam seguir instruções para tarefas sequenciais complexas ainda é um desafio. Pesquisadores agora introduziram o STEVE-1, um assistente de IA que pode seguir uma ampla variedade de instruções curtas e visuais no Minecraft.
O STEVE-1 baseia-se em dois modelos de IA existentes – o VPT, um modelo fundamental pré-treinado em 70.000 horas de jogabilidade do Minecraft, e o MineCLIP, que alinha legendas de texto com vídeos do Minecraft. Usando uma abordagem inspirada no método unCLIP do DALL-E 2, os pesquisadores ajustaram o VPT para seguir objetivos visuais codificados pelo MineCLIP e, em seguida, treinaram um módulo para traduzir prompts de texto em incorporações visuais do MineCLIP.
Esse modelo em dois passos permite que o STEVE-1 siga instruções tanto em texto quanto em formato visual no Minecraft, utilizando apenas $60 de poder computacional e 2.000 exemplos rotulados.
O STEVE-1 supera em muito os agentes de IA anteriores no Minecraft. Nos testes realizados, o STEVE-1 superou significativamente os agentes de IA anteriores no Minecraft quando recebeu instruções relevantes, coletando muito mais recursos e explorando mais distante, além de poder realizar diversas tarefas de curto prazo, como cortar árvores, coletar recursos e explorar, quando solicitado com texto ou imagens.
Os pesquisadores descobriram que encadear instruções melhorou o desempenho em tarefas de longo prazo, como criar itens ou construir estruturas, de quase zero para uma taxa de sucesso de 50 a 70 por cento. A equipe também demonstrou o STEVE-1 respondendo a instruções humanas em tempo real, demonstrando seu potencial como assistente interativo.
O STEVE-1 é um modelo para “agentes instruíveis em domínios além do Minecraft”
Embora, assim como na geração de imagens, mudar para uma instrução mais longa e específica melhore drasticamente o desempenho do STEVE-1 em tarefas de longo prazo, isso também é intuitivo e consome tempo, e mais trabalho precisa ser feito, conforme menciona o artigo.
Por trabalhar diretamente a partir de entrada bruta de pixels e ações de mouse e teclado em baixo nível, a abordagem poderia ser aplicada de forma mais ampla para criar agentes instruíveis em domínios além do Minecraft, segundo a equipe. O trabalho futuro se concentrará em melhorar a capacidade do STEVE-1 de lidar com instruções mais longas e complexas, incorporando grandes modelos de linguagem para ajudar o agente a planejar e executar tarefas multi-etapas.
Mais informações e o código estão disponíveis na página do projeto STEVE-1.
Regenerate response