Técnicas convencionais de avaliação de IA mostram-se insuficientes, e desenvolvedores estão recorrendo a métodos mais criativos para mensurar as capacidades dos modelos generativos. Para um grupo de desenvolvedores, a resposta foi o Minecraft, o popular jogo sandbox da Microsoft.

O site Minecraft Benchmark – também conhecido como MC-Bench – foi criado de forma colaborativa para colocar os modelos de IA em desafios diretos, nos quais eles precisam responder a comandos criando construções no Minecraft. Os usuários votam para indicar qual modelo realizou a construção de forma mais impressionante e, somente após votar, podem ver qual IA foi responsável por cada criação.

Screenshot 2025 03 19 at 11.24.22AM

Para Adi Singh, estudante do 12º ano e fundador do MC-Bench, o valor do Minecraft não reside apenas no jogo em si, mas na familiaridade que ele desperta no público – afinal, trata-se do videogame mais vendido de todos os tempos. Mesmo para quem nunca jogou, é possível avaliar qual representação em blocos de um determinado objeto – como um abacaxi – está melhor executada.

“O Minecraft permite que as pessoas vejam o progresso do desenvolvimento da IA de forma muito mais clara”, afirmou Singh. “As pessoas estão acostumadas com o visual e a atmosfera do jogo.”

Atualmente, o MC-Bench conta com a colaboração voluntária de oito pessoas. Empresas como Anthropic, Google, OpenAI e Alibaba apoiaram o uso de suas tecnologias para executar os comandos de avaliação, embora não estejam formalmente afiliadas ao projeto.

“Por ora estamos realizando construções simples para refletir o quanto evoluímos desde a era do GPT-3, mas podemos nos ver expandindo para planos mais elaborados e tarefas orientadas por objetivos. Jogos podem ser um meio de testar o raciocínio agentivo de forma mais segura e controlada para fins de avaliação, o que os torna ideais aos meus olhos,” acrescentou Singh.

Outros jogos, como Pokémon Red, Street Fighter e Pictionary, também já foram utilizados como parâmetros experimentais para mensurar a IA, justamente porque a arte de avaliá-la é notoriamente complicada. Pesquisadores costumam submeter os modelos a avaliações padronizadas, porém muitos desses testes favorecem os modelos em razão de suas características de treinamento, que os tornam naturalmente aptos a resolver problemas que envolvem memorização ou extrapolações básicas.

Em outras palavras, pode parecer impressionante que o GPT-4 da OpenAI obtenha resultados elevados em testes padronizados, mas que, ao mesmo tempo, tenha dificuldades para identificar corretamente a quantidade de letras “R” na palavra “strawberry”. Da mesma forma, embora o modelo Claude 3.7 Sonnet da Anthropic tenha alcançado boa precisão em desafios de engenharia de software, ele apresenta desempenho inferior em jogos como Pokémon, comparado à criança de cinco anos.

Screenshot 2025 03 20 at 2.22.35PM

O MC-Bench é, em essência, um benchmark de programação, já que os modelos são solicitados a escrever código para gerar a construção indicada nos comandos – por exemplo, “Frosty, o Boneco de Neve” ou “uma charmosa cabana tropical em uma praia de areia imaculada”.

No entanto, é mais simples para a maioria dos usuários do MC-Bench avaliar visualmente se um boneco de neve está mais bem construído, do que analisar o código por trás dele. Essa característica amplia o apelo do projeto, possibilitando a coleta de mais dados acerca dos modelos que consistentemente apresentam melhores resultados.

Embora exista um debate sobre o quanto esses escores refletem a utilidade prática da IA, Singh acredita que eles são um forte indicativo das tendências atuais. “A classificação atual reflete de forma bastante precisa minha experiência com esses modelos, contrastando com muitos benchmarks puramente textuais. Talvez o MC-Bench possa ser útil para as empresas verificarem se estão seguindo na direção certa.”