Estudo acusa LM Arena de favorecer grandes laboratórios de IA em seu benchmark
Um novo estudo realizado por um consórcio formado pelo laboratório Cohere, Stanford, MIT e Ai2 acusa a LM Arena, organização responsável pelo popular benchmark colaborativo Chatbot Arena, de facilitar que um grupo seleto de empresas de IA atinja pontuações elevadas na tabela de classificação, em detrimento de seus concorrentes.
De acordo com os autores, a LM Arena permitiu que empresas líderes do setor – como Meta, OpenAI, Google e Amazon – realizassem testes privados com várias variantes de modelos de IA, omitindo posteriormente a divulgação dos resultados dos piores desempenhos. Essa prática teria facilitado que essas empresas alcançassem posições de destaque na classificação da plataforma, enquanto a mesma oportunidade não era estendida a todas as organizações.
“Apenas um punhado de [empresas] foi informado de que esse teste privado estava disponível, e a quantidade de testes privados que algumas [empresas] receberam foi muito maior do que a de outras. Isso é uma forma de gamificação.” declarou Sara Hooker, vice-presidente de pesquisa em IA da Cohere e coautora do estudo.
Criado em 2023 como um projeto de pesquisa acadêmica na UC Berkeley, o Chatbot Arena se tornou um benchmark de referência para empresas de IA. A plataforma funciona colocando lado a lado as respostas de dois modelos de IA em uma “batalha” e solicitando que os usuários escolham a melhor. Não é incomum que modelos ainda não divulgados disputem na arena sob pseudônimos, com a votação ao longo do tempo contribuindo para a pontuação final e, consequentemente, para a posição desses modelos na tabela de classificação.
No entanto, os autores do estudo afirmam ter descoberto práticas que comprometem a imparcialidade do benchmark. A pesquisa alega, por exemplo, que a Meta teve acesso privado a 27 variantes de modelos no Chatbot Arena entre janeiro e março, no período que antecedeu o lançamento do Llama 4. Ao ser lançado, somente a pontuação de um modelo – que figurava entre os melhores na classificação – foi divulgada publicamente.

Em comunicado, o cofundador da LM Arena e professor da UC Berkeley, Ion Stoica, afirmou que o estudo contém “inconsistências” e “análises questionáveis”. Ele destacou o compromisso da organização com avaliações justas e orientadas pela comunidade, comentando que a realização de mais testes por um provedor de modelos não configura tratamento desigual.
O pesquisador Armand Joulin, do Google DeepMind, também comentou que alguns dos números apresentados no estudo estavam imprecisos, alegando que o Google enviou apenas um modelo da Gemma 3 para testes privados na plataforma, sendo que, diante dessas alegações, Hooker confirmou que os autores fariam as devidas correções.
Laboratórios supostamente favorecidos
Os pesquisadores começaram a investigar a situação em novembro de 2024, após receberem indicações de que determinadas empresas de IA poderiam estar tendo acesso preferencial ao Chatbot Arena. No decorrer de cinco meses, foram analisadas mais de 2,8 milhões de batalhas na plataforma.
Segundo o estudo, há evidências de que a LM Arena proporcionou a determinadas empresas – entre elas Meta, OpenAI e Google – a oportunidade de coletar um volume maior de dados, ao fazer com que seus modelos participassem de um número superior de batalhas. Essa taxa acelerada de amostragem teria concedido a essas organizações uma vantagem indevida. Ademais, a utilização de dados adicionais da LM Arena pode elevar o desempenho de um modelo no benchmark Arena Hard em até 112%, embora a organização tenha ressaltado que o desempenho no Arena Hard não se correlaciona diretamente com o do Chatbot Arena.
Hooker observa que não está claro como alguns desses laboratórios teriam acesso prioritário, mas defende que a LM Arena deveria adotar uma postura mais transparente a respeito do processo.
Além disso, em uma publicação recente, a LM Arena contestou algumas das alegações do estudo, referindo-se a um artigo anterior que demonstrava que modelos de laboratórios menos conhecidos participavam de um número maior de batalhas do que sugerido pelos pesquisadores.
Uma limitação importante apontada pelos autores do estudo está no método de “autodeclaração” utilizado para identificar quais modelos estavam em testes privados, uma vez que as respostas dos modelos nem sempre são confiáveis. Mesmo assim, segundo Hooker, a LM Arena não contestou as descobertas preliminares apresentadas pelos pesquisadores.
LM Arena em apuros
O artigo conclama a LM Arena a implementar mudanças que tornem o Chatbot Arena mais justo. Entre as recomendações, os pesquisadores sugerem que a organização estabeleça um limite público e transparente para o número de testes privados que os laboratórios de IA podem realizar, além de divulgar as pontuações desses testes.
Contudo, a LM Arena rejeitou tais sugestões, afirmando que já vem divulgando informações sobre os testes pré-lançamento desde março de 2024 e que “não faz sentido revelar pontuações de modelos pré-lançamento que não estão disponíveis publicamente”, justamente por impossibilitar que a comunidade de IA teste esses modelos independentemente.
Os autores também recomendam que a LM Arena ajuste sua taxa de amostragem para garantir que todos os modelos disputem o mesmo número de batalhas. A organização se mostrou receptiva a essa proposta e informou que um novo algoritmo de amostragem será implementado.
O estudo surge poucas semanas após a Meta ter sido flagrada manipulando benchmarks no Chatbot Arena durante o lançamento dos modelos Llama 4. Na ocasião, a empresa otimizou uma das versões do Llama 4 para “conversação”, o que resultou em uma pontuação impressionante na plataforma, embora essa versão otimizada não tenha sido divulgada publicamente – a versão padrão apresentou desempenho significativamente inferior. Na ocasião, a LM Arena criticou a falta de transparência da Meta em seu método de benchmarking.
Recentemente, a LM Arena anunciou sua transformação em empresa, com planos de captar investimentos. O estudo intensifica o debate sobre a confiabilidade de organizações de benchmark privadas e sua capacidade de avaliar modelos de IA sem a influência de interesses corporativos.