Na última semana, a Meta se envolveu em polêmica por ter utilizado uma versão experimental, ainda não lançada, de seu modelo Llama 4 Maverick para alcançar uma pontuação elevada em um benchmark colaborativo, o LM Arena. Esse episódio levou os responsáveis pelo LM Arena a se desculparem, revisarem suas políticas e a pontuarem a versão sem modificações, o Maverick vanilla.

Acontece que, nessa condição, o modelo não se mostra muito competitivo.

O Maverick sem modificações, denominado “Llama-4-Maverick-17B-128E-Instruct”, ficou abaixo de modelos como o GPT-4o da OpenAI, o Claude 3.5 Sonnet da Anthropic e o Gemini 1.5 Pro do Google, mesmo considerando que muitos desses modelos têm alguns meses de idade.

Mas por que esse desempenho inferior? Segundo a Meta, sua versão experimental, o “Llama-4-Maverick-03-26-Experimental”, foi “otimizada para a conversação”, conforme evidenciado em um gráfico publicado recentemente. Essa otimização parece ter favorecido os resultados no LM Arena, onde avaliadores humanos comparam as respostas dos modelos e escolhem suas preferências.

Como já foi comentado anteriormente, o LM Arena nunca mostrou ser o parâmetro mais confiável para mensurar a performance de um modelo de inteligência artificial. Ajustar um modelo para render bem em um benchmark — além de prejudicar a transparência — dificulta que os desenvolvedores prevejam com precisão o seu comportamento em diferentes contextos.

Em comunicado, um porta-voz da Meta afirmou que a empresa realiza experimentos com “todos os tipos de variantes customizadas”. Segundo ele, “‘Llama-4-Maverick-03-26-Experimental’ é uma versão otimizada para chat que experimentamos e que também apresentou bom desempenho no LM Arena. Agora, lançamos nossa versão open source e vamos observar como os desenvolvedores personalizam o Llama 4 para os seus casos de uso. Estamos entusiasmados em ver o que será construído e esperamos um feedback contínuo.”