STEVE-1 é um modelo de IA generativo que pode executar tarefas em Minecraft usando instruções em texto.

Modelos de IA que podem responder a instruções em linguagem natural se tornaram incrivelmente populares, mas criar modelos que possam seguir instruções para tarefas sequenciais complexas ainda é um desafio. Pesquisadores agora introduziram o STEVE-1, um assistente de IA que pode seguir uma ampla variedade de instruções curtas e visuais no Minecraft.

O STEVE-1 baseia-se em dois modelos de IA existentes – o VPT, um modelo fundamental pré-treinado em 70.000 horas de jogabilidade do Minecraft, e o MineCLIP, que alinha legendas de texto com vídeos do Minecraft. Usando uma abordagem inspirada no método unCLIP do DALL-E 2, os pesquisadores ajustaram o VPT para seguir objetivos visuais codificados pelo MineCLIP e, em seguida, treinaram um módulo para traduzir prompts de texto em incorporações visuais do MineCLIP.

Bild: Lifshitz, Paster et al.
Bild: Lifshitz, Paster et al.

Esse modelo em dois passos permite que o STEVE-1 siga instruções tanto em texto quanto em formato visual no Minecraft, utilizando apenas $60 de poder computacional e 2.000 exemplos rotulados.

O STEVE-1 supera em muito os agentes de IA anteriores no Minecraft. Nos testes realizados, o STEVE-1 superou significativamente os agentes de IA anteriores no Minecraft quando recebeu instruções relevantes, coletando muito mais recursos e explorando mais distante, além de poder realizar diversas tarefas de curto prazo, como cortar árvores, coletar recursos e explorar, quando solicitado com texto ou imagens.

Os pesquisadores descobriram que encadear instruções melhorou o desempenho em tarefas de longo prazo, como criar itens ou construir estruturas, de quase zero para uma taxa de sucesso de 50 a 70 por cento. A equipe também demonstrou o STEVE-1 respondendo a instruções humanas em tempo real, demonstrando seu potencial como assistente interativo.

O STEVE-1 é um modelo para “agentes instruíveis em domínios além do Minecraft”

Embora, assim como na geração de imagens, mudar para uma instrução mais longa e específica melhore drasticamente o desempenho do STEVE-1 em tarefas de longo prazo, isso também é intuitivo e consome tempo, e mais trabalho precisa ser feito, conforme menciona o artigo.

Por trabalhar diretamente a partir de entrada bruta de pixels e ações de mouse e teclado em baixo nível, a abordagem poderia ser aplicada de forma mais ampla para criar agentes instruíveis em domínios além do Minecraft, segundo a equipe. O trabalho futuro se concentrará em melhorar a capacidade do STEVE-1 de lidar com instruções mais longas e complexas, incorporando grandes modelos de linguagem para ajudar o agente a planejar e executar tarefas multi-etapas.

Mais informações e o código estão disponíveis na página do projeto STEVE-1.

Regenerate response