O modelo de linguagem Gemini 2.5 Pro do Google supera Pokémon Blue com uma ajudinha
Um projeto independente demonstra como o modelo de linguagem Gemini 2.5 Pro, do Google, consegue completar o clássico jogo de Game Boy Pokémon Blue, ainda que com um suporte técnico significativo.
Pokémon Blue, lançado em 1996, é conhecido por suas mecânicas complexas, batalhas estratégicas e exploração de um mundo aberto — desafios que exigem planejamento de longo prazo, acompanhamento de objetivos e navegação visual, todas habilidades fundamentais para o desenvolvimento de uma inteligência artificial geral.
Um desenvolvedor, sem afiliação com o Google, colocou o Gemini 2.5 Pro Experimental à prova, guiando um personagem através de Pokémon Blue de forma amplamente autônoma. Após várias centenas de horas, o sistema conseguiu completar o jogo. Toda a jogatina está disponível no Twitch.
Como o Gemini navega por Pokémon Blue
A configuração combina o emulador mGBA com o Gemini 2.5 Pro. O emulador envia ao Gemini capturas de tela e dados do jogo, como a posição do personagem, a equipe atual de Pokémon e a disposição do mapa. Em resposta, o modelo envia comandos de controle — como pressionar “A”, “B” ou mover em alguma direção.
Para auxiliar na navegação, a tela do jogo exibe uma sobreposição em forma de grade. O modelo também recebe dados selecionados da RAM para aprimorar sua compreensão do ambiente. Um mapa baseado em texto acompanha o progresso da exploração, compensando a limitada consciência espacial semelhante à humana do Gemini.
Com base nessas informações, o Gemini decide sua próxima jogada ou delega tarefas mais complexas a subagentes especializados. Um agente “Pathfinder” planeja rotas por áreas complicadas, enquanto um “Estrategista de Quebra-Cabeça de Pedras” resolve enigmas específicos envolvendo o movimento de rochas. Ambos os agentes também são instâncias do Gemini.
O sistema determina quando acionar um desses agentes, demonstrando que ele consegue diferenciar entre situações rotineiras e momentos mais complexos do jogo. Para gerenciar a memória, o sistema resume periodicamente mensagens anteriores — cerca de cada 100 ações — para manter-se dentro dos limites de tokens.
Sem AGI, mas um modelo de IA bem coordenado
Mesmo com sua atuação impressionante, o desempenho do Gemini não equivale a uma inteligência geral. O desenvolvedor interveio em alguns momentos, por exemplo, limitando o uso de itens de fuga ou corrigindo falhas. Segundo ele, não há dicas diretas ou tutoriais — com exceção de um caso envolvendo um bug conhecido do jogo.
O projeto conta com uma série de ferramentas complementares: sobreposições em grade, instâncias especializadas dos agentes e atualizações regulares de memória. Sem esses recursos, o sistema não funcionaria tão eficazmente.
Embora ainda não esteja claro se o Gemini seria capaz de alcançar esse feito sem tanta orientação, conseguir gerenciar um jogo complexo como Pokémon Blue sob condições controladas demonstra o quão avançados os grandes modelos de linguagem podem ser com a configuração adequada.
O desenvolvimento segue em andamento, com planos que incluem uma melhor gestão de memória, integração de anotações, uma jogatina totalmente contínua e, possivelmente, interações com espectadores (sem assistência adicional). Estão também em curso testes com modelos de linguagem alternativos.