Empresas de IA estão lutando para dominar a indústria, mas, às vezes, também se enfrentam em ginásios de Pokémon.

Tanto a Google quanto a Anthropic investigam como seus mais recentes modelos de IA navegam pelos primeiros jogos de Pokémon. Contudo, dessa vez, o Google DeepMind divulgou em um relatório que o Gemini 2.5 Pro entra em pânico quando seus Pokémon estão próximos da morte. Esse estado de “pânico” pode levar a uma degradação qualitativa observável na capacidade de raciocínio do modelo.

A avaliação de desempenho de IA – o processo de comparar o desempenho de diferentes modelos – é uma arte duvidosa, que frequentemente oferece pouco contexto sobre as reais capacidades de um determinado sistema. Ainda assim, alguns pesquisadores acreditam que estudar como as IAs jogam videogames pode ser bastante útil (ou, pelo menos, oferecer momentos bem divertidos).

Nos últimos meses, dois desenvolvedores, independentes da Google e da Anthropic, criaram transmissões ao vivo na Twitch intituladas “Gemini Plays Pokémon” e “Claude Plays Pokémon”. Nessas transmissões, qualquer pessoa pode acompanhar, em tempo real, enquanto uma IA tenta navegar por um jogo infantil de mais de vinte e cinco anos atrás.

Cada transmissão exibe o processo de “raciocínio” da IA – uma tradução em linguagem natural de como o modelo avalia um problema e chega a uma resposta – proporcionando uma visão interessante sobre o funcionamento interno desses sistemas.

Screenshot 2025 06 17 at 3.43.39PM

Embora o progresso dos modelos de IA seja impressionante, eles ainda não são muito eficientes em jogar Pokémon. Leva centenas de horas para o Gemini raciocinar através de um jogo que uma criança poderia completar em um tempo exponencialmente menor.

O interessante, porém, não é tanto o tempo de conclusão, mas sim o comportamento da IA durante o jogo.

Durante o decorrer da partida, o Gemini 2.5 Pro se depara com diversas situações que fazem com que o modelo simule um “pânico”. Esse estado pode fazer com que o desempenho do modelo caia, já que a IA pode, repentinamente, parar de utilizar certas ferramentas durante trechos do jogo. Embora a IA não pense ou sinta emoções, suas ações imitam como um ser humano pode tomar decisões precipitadas e inadequadas quando está sob estresse – uma resposta fascinante, embora perturbadora.

Esse comportamento se repetiu em diversas ocasiões, a ponto de os espectadores do chat da Twitch notarem ativamente quando ele ocorria.

O modelo Claude também apresentou comportamentos curiosos em suas jornadas pela região de Kanto. Em uma ocasião, a IA identificou o padrão de que, ao esgotar a saúde de todos os seus Pokémon, o personagem do jogador “branqueia” e retorna a um Centro Pokémon.

Ao ficar preso na caverna Mt. Moon, o Claude chegou a supor erroneamente que, ao fazer com que todos os seus Pokémon desmaiassem propositadamente, ele seria transportado pela caverna até o Centro Pokémon da cidade seguinte. Entretanto, essa não é a mecânica do jogo: quando todos os Pokémon morrem, o jogador retorna ao Centro Pokémon utilizado mais recentemente, e não ao mais próximo geograficamente. Os espectadores assistiram, horrorizados, enquanto a IA, de certa forma, tentava se autossabotar no jogo.

Apesar das falhas, há aspectos em que a IA pode superar jogadores humanos. Desde o lançamento do Gemini 2.5 Pro, o modelo tem demonstrado uma impressionante capacidade de resolver diversos enigmas do jogo.

Com alguma assistência humana, a IA passou a criar ferramentas autônomas – instâncias especializadas do Gemini 2.5 Pro direcionadas a tarefas específicas – para resolver os quebra-cabeças com pedras e identificar rotas eficientes até um destino.

Com um simples comando descrevendo as leis da física aplicadas aos blocos e uma orientação sobre como verificar a validade de um caminho, o Gemini 2.5 Pro consegue solucionar, de maneira inédita, alguns desses complexos puzzles, essenciais para avançar pela Victory Road.

Como o próprio modelo executou grande parte do trabalho de criação dessas ferramentas, a Google sugere que o Gemini 2.5 Pro pode, futuramente, ser capaz de desenvolvê-las sem intervenção humana. Quem sabe, talvez o Gemini evolua a ponto de criar um módulo que o impeça de “entrar em pânico”.