Durante sua conferência inaugural para desenvolvedores, na última quinta-feira, a Anthropic lançou dois novos modelos de IA que a startup alega estarem entre os melhores do setor, pelo menos no quesito desempenho em benchmarks populares.

Claude Opus 4 e Claude Sonnet 4, que integram a nova família de modelos Claude 4, conseguem analisar grandes conjuntos de dados, executar tarefas de longo prazo e tomar decisões complexas, de acordo com a empresa. Ambos os modelos foram otimizados para ter um bom desempenho em tarefas de programação, o que os torna ideais para a escrita e a edição de código.

Tanto usuários pagantes quanto usuários dos aplicativos gratuitos de chatbot da Anthropic terão acesso ao Sonnet 4, enquanto o Opus 4 será exclusivo para os pagantes. Para a API da Anthropic, disponível através da plataforma Bedrock da Amazon e do Vertex AI do Google, o Opus 4 será tarifado a US$ 15/US$ 75 por milhão de tokens (entrada/saída) e o Sonnet 4 a US$ 3/US$ 15 por milhão de tokens (entrada/saída). Tokens são as unidades brutas de dados com as quais os modelos de IA trabalham, sendo que um milhão de tokens equivale a aproximadamente 750 mil palavras — cerca de 163 mil palavras a mais que “Guerra e Paz”.

Claude 4 Model selector

A chegada dos modelos Claude 4 ocorre em um momento em que a Anthropic busca aumentar substancialmente sua receita. Conforme relatos da Reuters, a empresa, fundada por ex-pesquisadores da OpenAI, pretende registrar US$ 12 bilhões em ganhos em 2027, elevando o patamar a partir dos US$ 2,2 bilhões projetados para este ano. Recentemente, a Anthropic fechou uma linha de crédito de US$ 2,5 bilhões e levantou bilhões de dólares de investidores, incluindo a Amazon, em antecipação aos custos crescentes envolvidos no desenvolvimento de modelos de ponta.

Mesmo com a concorrência acirrada — que já viu a Anthropic lançar, ainda no início deste ano, o modelo carro-chefe Claude Sonnet 3.7 e uma ferramenta de codificação agentiva chamada Claude Code, enquanto concorrentes como OpenAI e Google se empenham em superar a startup com seus próprios modelos e ferramentas para desenvolvedores — a Anthropic aposta alto com o Claude 4.

Segundo a empresa, o Opus 4, considerado o mais capaz dos dois modelos, consegue manter um “esforço focado” em diversas etapas de um fluxo de trabalho. Já o Sonnet 4 – desenvolvido para ser um substituto direto do Sonnet 3.7 – apresenta melhorias nas áreas de codificação e matemática, além de seguir as instruções de forma mais precisa.

A família Claude 4 também demonstra menor tendência ao chamado “reward hacking” quando comparada ao Sonnet 3.7. Reward hacking, ou specification gaming, é um comportamento em que os modelos recorrem a atalhos e brechas para completar tarefas.

Embora essas inovações não tenham propiciado o desenvolvimento dos modelos _melhores_ do mundo em todos os benchmarks — por exemplo, mesmo que o Opus 4 supere o Gemini 2.5 Pro do Google e os modelos o3 e GPT-4.1 da OpenAI no SWE-bench Verified, focado na capacidade de programação dos modelos, ele não chega a superar o o3 na avaliação multimodal MMMU ou no GPQA Diamond, que reúne questões de nível de doutorado em biologia, física e química — os avanços são significativos, mas ainda há desafios a serem superados.

Claude 4 Benchmarks

Mesmo assim, a Anthropic lança o Opus 4 com medidas de segurança reforçadas, incluindo detectores aprimorados de conteúdo prejudicial e defesas cibernéticas. A empresa afirma que seus testes internos indicaram que o Opus 4 pode “aumentar substancialmente” a capacidade de alguém com formação em áreas de STEM para obter, produzir ou empregar armas químicas, biológicas ou nucleares, atingindo a especificação “ASL-3” do modelo.

Ambos os modelos, Opus 4 e Sonnet 4, são classificados como “híbridos”, segundo a Anthropic – combinando respostas quase instantâneas com um raciocínio aprofundado para melhor avaliar e solucionar problemas (na medida em que a IA pode “raciocinar” e “pensar” como os humanos compreendem esses termos). Com o modo de raciocínio ativado, os modelos dedicam mais tempo para considerar possíveis soluções antes de responder.

Durante esse processo de raciocínio, eles exibem um resumo “amigável” de seu processo de pensamento. Por que não mostrar o processo completo? Em parte, para proteger as “vantagens competitivas” da empresa, conforme mencionado em um rascunho disponibilizado à TechCrunch.

Os modelos Opus 4 e Sonnet 4 são capazes de utilizar múltiplas ferramentas, como motores de busca, em paralelo, alternando entre o raciocínio e o uso dessas ferramentas para aprimorar a qualidade das respostas. Eles também podem extrair e armazenar informações em “memória”, realizando tarefas com maior confiabilidade e construindo, com o tempo, o que a Anthropic descreve como “conhecimento tácito”.

Para tornar os modelos mais amigáveis aos programadores, a Anthropic está implementando melhorias no Claude Code. Essa ferramenta permite que desenvolvedores executem tarefas específicas por meio dos modelos Anthropic diretamente a partir do terminal e agora está integrada a diversas IDEs, além de oferecer um SDK que possibilita sua conexão com aplicações de terceiros.

O SDK do Claude Code, anunciado no início desta semana, permite a execução do Claude Code como um subprocesso em sistemas operacionais suportados, abrindo caminho para a criação de assistentes de codificação e ferramentas impulsionadas por IA que aproveitam todo o potencial dos modelos Claude.

A Anthropic já lançou extensões e conectores do Claude Code para o VS Code da Microsoft, JetBrains e GitHub. O conector para o GitHub possibilita que os desenvolvedores configurem o Claude Code para responder a feedbacks de revisores, além de tentar corrigir erros ou modificar o código.

Apesar dos avanços, os modelos de IA ainda enfrentam desafios na criação de softwares com alta qualidade. A IA para geração de código tende a introduzir vulnerabilidades de segurança e erros devido a limitações na compreensão da lógica de programação. Contudo, a promessa de aumentar a produtividade na codificação tem impulsionado a rápida adoção dessas ferramentas por empresas e desenvolvedores, como aponta uma pesquisa do Stack Overflow.

Consciente desses desafios, a Anthropic promete atualizações mais frequentes para seus modelos. “Estamos migrando para atualizações de modelo mais frequentes, oferecendo um fluxo contínuo de melhorias que trazem capacidades inovadoras aos clientes de forma mais ágil”, escreveu a startup em seu rascunho. “Essa abordagem mantém você na vanguarda enquanto continuamente refinamos e aprimoramos nossos modelos.”