Meta lança o Llama 4, nova geração de modelos de IA premium

A Meta apresentou uma nova coleção de modelos de inteligência artificial, o Llama 4, de sua família Llama — e isso aconteceu em um sábado. No total, são quatro novos modelos: Llama 4 Scout, Llama 4 Maverick e Llama 4 Behemoth. Segundo a empresa, eles foram treinados com grandes quantidades de dados não rotulados de texto, imagem e vídeo, proporcionando uma ampla compreensão visual.

O sucesso dos modelos abertos do laboratório chinês DeepSeek, que atuam de forma equivalente ou superior aos modelos Llama anteriores, supostamente acelerou o desenvolvimento do Llama. A Meta teria organizado “war rooms” para descobrir como a DeepSeek conseguiu reduzir os custos de execução e implantação de modelos como o R1 e o V3.

Atualmente, os modelos Scout e Maverick estão disponíveis em Llama.com e por meio dos parceiros da Meta, como a plataforma de desenvolvimento de IA Hugging Face, enquanto o Behemoth ainda está em treinamento. Ademais, o assistente de IA da Meta, presente em aplicativos como WhatsApp, Messenger e Instagram, foi atualizado para utilizar o Llama 4 em 40 países, sendo que os recursos multimodais estão, por ora, limitados aos Estados Unidos e apenas em inglês.

Alguns desenvolvedores podem ter objeções quanto à licença do Llama 4. Usuários e empresas domiciliados ou com sede principal na União Europeia não podem utilizar ou distribuir os modelos, em conformidade com as exigências das leis europeias de privacidade de dados e IA. Da mesma forma que em lançamentos anteriores, empresas com mais de 700 milhões de usuários ativos mensais precisam solicitar uma licença especial, cujo deferimento fica a critério exclusivo da Meta.

De acordo com um post divulgado no blog da empresa, esses modelos Llama 4 marcam o início de uma nova era para o ecossistema Llama — e este é apenas o começo para essa coleção.

A Meta destaca que o Llama 4 é o primeiro conjunto de modelos a utilizar uma arquitetura de mistura de especialistas (MoE), que torna o treinamento e a resposta a consultas mais eficientes do ponto de vista computacional. Essa arquitetura divide tarefas de processamento de dados em subtarefas, delegando-as a modelos menores e especializados.

Por exemplo, o Maverick possui 400 bilhões de parâmetros no total, mas apenas 17 bilhões estão ativos, distribuídos entre 128 “especialistas”. Em contrapartida, o Scout conta com 17 bilhões de parâmetros ativos, 16 especialistas e 109 bilhões de parâmetros no total. Segundo testes internos da Meta, o Maverick — apontado como o mais adequado para aplicações gerais de assistente e bate-papo, como na escrita criativa — supera modelos como o GPT-4o da OpenAI e o Gemini 2.0 da Google em alguns benchmarks de codificação, raciocínio, capacidades multilíngues, análise de textos extensos e processamento de imagens. Contudo, ainda não alcança modelos mais avançados, como o Gemini 2.5 Pro da Google, o Claude 3.7 Sonnet da Anthropic e o GPT-4.5 da OpenAI.

O Scout se destaca em tarefas como sumarização de documentos e análise de grandes bases de código. De forma singular, ele possui uma janela de contexto extremamente ampla — 10 milhões de tokens. Em outras palavras, o Scout é capaz de processar imagens e até milhões de palavras, o que o torna apto a lidar com documentos extremamente longos.

Enquanto o Scout pode ser operado em uma única GPU Nvidia H100, o Maverick exige um sistema Nvidia H100 DGX ou equivalente, conforme os cálculos da Meta. O modelo ainda não lançado, Behemoth, demandará hardware ainda mais robusto, contando com 288 bilhões de parâmetros ativos, distribuídos em 16 especialistas e quase dois trilhões de parâmetros no total. Testes internos indicam que o Behemoth supera o GPT-4.5, o Claude 3.7 Sonnet e o Gemini 2.0 Pro — embora não alcance o desempenho do Gemini 2.5 Pro — em diversas avaliações voltadas para habilidades em STEM, como resolução de problemas matemáticos.

É importante destacar que nenhum dos modelos Llama 4 foi projetado como um modelo de “raciocínio” propriamente dito, semelhante aos o1 e o3-mini da OpenAI. Modelos de raciocínio tendem a verificar seus dados e responder de forma mais confiável, mas, como consequência, demoram mais para fornecer respostas em comparação aos modelos tradicionais.

Curiosamente, a Meta afirmou ter ajustado todos os seus modelos Llama 4 para recusarem, com menos frequência, perguntas consideradas “contenciosas”. Segundo a empresa, o Llama 4 é capaz de responder a temas políticos e sociais “debatidos”, algo que os modelos anteriores da família Llama evitavam. Além disso, ele se mostra “dramaticamente mais equilibrado” quanto aos tipos de solicitações que rejeita categoricamente.

Em declarações à imprensa, um porta-voz da Meta afirmou que o Llama 4 está preparado para oferecer respostas úteis e factuais sem julgamento, respondendo a uma variedade de pontos de vista sem favorecer uns em detrimento de outros. Esses ajustes surgem em meio a críticas de aliados da Casa Branca, que acusam alguns chatbots de IA de serem excessivamente “politicamente corretos”.

Alguns dos aliados mais próximos do ex-presidente Donald Trump, como o bilionário Elon Musk e o “czar” de criptomoedas e IA, David Sacks, já haviam alegado que chatbots populares censuravam visões conservadoras. Sacks, inclusive, apontou o ChatGPT da OpenAI como “programado para ser politicamente correto” e pouco confiável em questões políticas. Entretanto, o viés na IA continua sendo um desafio técnico complexo, evidenciado inclusive pelas dificuldades enfrentadas pela própria empresa de IA de Musk, a xAI, em criar um chatbot que não favoreça certos pontos de vista em detrimento de outros.

Mesmo diante desses desafios, empresas como a OpenAI têm efetuado ajustes em seus modelos de IA para que possam responder a um número maior de perguntas, especialmente aquelas relacionadas a temas polêmicos.