Modelos Llama 4 da Meta: Potencial em Testes Padrão e Desafios com Tarefas de Contexto Longo

  • Adicionados resultados atuais do benchmark de modelo padrão da LMarena.ai
  • Incluídas declarações da LMarena.ai e da Artificial Analysis

Atualização 12 de Abril de 2025:

O modelo “padrão” Maverick da Llama 4 atualmente ocupa a 32ª posição no LMarena, bem atrás dos modelos de melhor desempenho. Mas os resultados precisam de contexto: até mesmo sistemas mais antigos, como o Qwen 2.5, aparecem acima dos amplamente utilizados modelos da Anthropic, como o Sonnet 3.7 e 3.5. As diferenças de pontuação entre os modelos costumam ser marginais.

Screenshot: THE DECODER

O LMarena demonstra o quão arbitrários os benchmarks podem ser quando não estão vinculados a tarefas claramente definidas – e o quão facilmente podem ser manipulados, como evidenciado pelo modelo experimental Maverick da Meta. Em última análise, o benchmark mais relevante é aquele que avalia o desempenho do modelo nas tarefas que realmente importam, considerando o equilíbrio entre custo e performance.

Atualização 9 de Abril de 2025:

A LMArena divulgou evidências para esclarecer as preocupações acerca do modelo de IA “experimental” da Meta. A plataforma publicou mais de 2.000 comparações diretas, incluindo prompts de usuários, respostas dos modelos e preferências dos mesmos.

Segundo a LMArena, “a interpretação da nossa política pela Meta não corresponde ao que esperamos dos fornecedores de modelos. A Meta deveria ter deixado claro que ‘Llama-4-Maverick-03-26-Experimental' era um modelo customizado para otimizar a preferência humana.”

Os dados indicam que a Llama 4 produz respostas consistentemente mais longas e formatadas, com o uso frequente de emoticons – sugerindo que a Meta ajustou o modelo especificamente para melhorar seu desempenho em benchmarks. Em breve, a LMArena testará a versão padrão do Llama-4-Maverick e divulgará os resultados.

Elevação das Pontuações dos Benchmarks Após Revisão Metodológica

A Artificial Analysis revisou seus critérios de avaliação e atualizou as pontuações da Llama 4. Ao aceitar respostas formatadas como “A melhor resposta é A” em questões de múltipla escolha, a plataforma registrou mudanças significativas nos benchmarks MMLU Pro e GPQA Diamond. O Índice de Inteligência da Scout passou de 36 para 43, enquanto o Maverick avançou de 49 para 50, evidenciando como os métodos de pontuação podem impactar os resultados dos testes.

artificial analysis llama 4 2

Os dados recentes indicam que os modelos Llama 4 estão ganhando terreno, mas ainda ficam atrás do Deepseek. O design eficiente do Maverick permite que ele alcance essas pontuações com 17 bilhões de parâmetros ativos, em comparação aos 37 bilhões do Deepseek V3. Em termos de parâmetros totais, o Maverick utiliza 402 bilhões contra 671 bilhões do Deepseek V3, além de oferecer suporte ao processamento de imagens.

Artigo Original de 7 de Abril de 2025

Novas avaliações independentes revelam que os mais recentes modelos Llama 4 da Meta – Maverick e Scout – apresentam bom desempenho em testes padrão, mas enfrentam dificuldades com tarefas complexas que envolvem longos contextos.

De acordo com o “Índice de Inteligência” agregado da Artificial Analysis, o Llama 4 Maverick obteve 49 pontos, enquanto o Scout alcançou 36. Isso coloca o Maverick à frente do Claude 3.7 Sonnet, mas atrás do Deepseek V3 0324. O Scout atua em nível similar ao GPT-4o-mini e supera tanto o Claude 3.5 Sonnet quanto o Mistral Small 3.1.

Ambos os modelos demonstraram capacidades consistentes em raciocínio geral, programação e tarefas matemáticas, sem apresentar fraquezas significativas em áreas específicas.

llama 4 artificial analysis benchmarks 1

O Índice de Inteligência da Artificial Analysis destaca a força relativa dos principais modelos de IA em sete testes padronizados. O Deepseek lidera, com 53 pontos, seguido pelo GPT-4o e pelo Llama-4-Maverick, que obtiveram 50 e 49 pontos, respectivamente.

A arquitetura do Maverick evidencia eficiência, utilizando apenas metade dos parâmetros ativos do Deepseek V3 (17 bilhões contra 37 bilhões) e aproximadamente 60% dos parâmetros totais (402 bilhões contra 671 bilhões). Ao contrário do Deepseek V3, que processa somente texto, o Maverick também consegue lidar com imagens.

A Artificial Analysis reporta preços medianos de US$ 0,24/US$ 0,77 por milhão de tokens de entrada/saída para o Maverick, e US$ 0,15/US$ 0,4 para o Scout. Esses valores são competitivos, ficando abaixo até mesmo das opções mais econômicas, como o Deepseek V3, e podem custar até dez vezes menos que o GPT-4o da OpenAI.

llama 4 artificial analysis benchmarks 2

Os atuais preços dos modelos de IA demonstram variações significativas entre os custos de entrada e saída, posicionando os novos modelos Llama entre as opções mais acessíveis.

Questões Sobre os Resultados do LMArena

O lançamento da Llama 4 não ficou isento de controvérsias. Diversos testadores relataram diferenças significativas de desempenho entre o LMArena – benchmark fortemente promovido pela Meta – e os resultados obtidos pelo modelo em outras plataformas, mesmo utilizando o prompt básico recomendado pela Meta.

A Meta reconheceu ter utilizado uma “versão de chat experimental” do Maverick para esse benchmark, sugerindo uma possível otimização para avaliadores humanos por meio de respostas detalhadas, bem estruturadas e com formatação clara.

Quando o “Controle de Estilo” do LMArena é ativado – um método que separa a qualidade do conteúdo de sua apresentação – a Llama 4 cai da segunda para a quinta posição, evidenciando que, ao isolar o conteúdo (considerando fatores como o comprimento da resposta e a formatação), o desempenho diminui. Essa estratégia de otimização para benchmarks é, provavelmente, utilizada por outros desenvolvedores de IA.

style control maverick llama 4

O Llama 4 Maverick ocupa a 2ª posição sem o controle de estilo, mas cai para a 5ª quando essa função é aplicada.

Desempenho em Contextos Longos Decepciona

Os desafios mais acentuados surgiram nos testes realizados pelo Fiction.live, que avaliam a compreensão de textos longos e complexos por meio de narrativas multifacetadas.

O Fiction.live argumenta que seus testes refletem melhor os casos reais de uso, mensurando a compreensão efetiva ao invés da simples capacidade de busca. Para isso, os modelos precisam acompanhar mudanças temporais, fazer previsões lógicas baseadas em informações estabelecidas e distinguir entre o conhecimento do leitor e o dos personagens.

Nesses testes desafiadores, o desempenho da Llama 4 decepcionou. O Maverick não demonstrou avanços em comparação com o Llama 3.3 70B, enquanto o Scout teve um desempenho “absolutamente ruim”.

A diferença é notável: enquanto o Gemini 2.5 Pro mantém 90,6% de precisão com 120.000 tokens, o Maverick atinge somente 28,1% e o Scout, 15,6%.

O benchmark de compreensão de contextos longos do Fiction.live evidencia discrepâncias expressivas entre os modelos. Esses resultados desafiam as alegações da Meta sobre as capacidades de lidar com contextos extensos. Embora o Scout, anunciado para processar até 10 milhões de tokens, lute para manipular apenas 128.000 tokens, o Maverick também demonstra inconsistências ao processar documentos com 128.000 tokens, mesmo afirmando suportar uma janela de contexto de um milhão de tokens.

Pesquisas recentes apontam que janelas de contexto maiores oferecem benefícios limitados, pois os modelos tendem a tratar toda a informação de forma desigual. Em muitos casos, trabalhar com contextos menores – de até 128 mil tokens – proporciona resultados mais eficazes, e a divisão de documentos extensos em capítulos pode ser a estratégia mais adequada.

Em resposta aos relatos de desempenho variado, o chefe de IA generativa da Meta, Ahmad Al-Dahle, explicou que as inconsistências iniciais refletem desafios temporários na implementação, e não limitações intrínsecas dos modelos.

“Como disponibilizamos os modelos assim que estiveram prontos, esperamos que seja necessário alguns dias para que todas as implementações públicas sejam ajustadas”, afirma Al-Dahle, que nega veementemente as alegações de treinamento com conjuntos de teste, afirmando que “isso simplesmente não é verdade e jamais faríamos isso.”

“Nossa melhor compreensão é de que a variabilidade na qualidade observada se deve à necessidade de estabilizar as implementações”, conclui, enfatizando que diversos serviços ainda estão otimizando suas implementações da Llama 4.