A Anthropic está lançando um novo modelo de IA de fronteira chamado Claude 3.7 Sonnet, que a empresa projetou para “pensar” sobre questões pelo tempo que os usuários desejarem.
A Anthropic apresenta o Claude 3.7 Sonnet como o primeiro “modelo híbrido de raciocínio em IA” da indústria, pois se trata de um único modelo capaz de fornecer respostas em tempo real e também respostas mais reflexivas e elaboradas. Os usuários podem escolher se desejam ativar as capacidades de “raciocínio” do modelo, que fazem com que o Claude 3.7 Sonnet “pense” por períodos curtos ou longos.
O modelo representa um esforço mais amplo da Anthropic para simplificar a experiência do usuário com seus produtos de IA. Atualmente, a maioria dos chatbots de IA apresenta um complicado processo de escolha de modelos, forçando os usuários a selecionar entre várias opções com custos e capacidades diferentes. Laboratórios como o da Anthropic preferem que você não precise se preocupar com isso – o ideal é que um só modelo faça todo o trabalho.
O Claude 3.7 Sonnet está sendo disponibilizado para todos os usuários e desenvolvedores a partir de segunda-feira, segundo a Anthropic, mas somente os usuários que adquirem os planos premium do chatbot Claude terão acesso às funcionalidades de raciocínio do modelo. Já os usuários gratuitos receberão a versão padrão, sem raciocínio, do Claude 3.7 Sonnet, a qual, segundo a empresa, supera seu modelo de fronteira anterior, o Claude 3.5 Sonnet.
O Claude 3.7 Sonnet custa US$3 por milhão de tokens de entrada (o que permite inserir aproximadamente 750 mil palavras – mais do que toda a série “O Senhor dos Anéis” – por US$3) e US$15 por milhão de tokens de saída. Esse custo o torna mais caro que o o3-mini, da OpenAI (US$1,10 por 1 milhão de tokens de entrada e US$4,40 por 1 milhão de tokens de saída) e o R1, da DeepSeek (55 centavos por 1 milhão de tokens de entrada e US$2,19 por 1 milhão de tokens de saída), mas vale lembrar que o o3-mini e o R1 são modelos estritamente de raciocínio – não híbridos como o Claude 3.7 Sonnet.
O Claude 3.7 Sonnet é o primeiro modelo de IA da Anthropic que consegue “raciocinar”, uma técnica à qual diversos laboratórios de IA recorreram à medida que os métodos tradicionais de aprimoramento de desempenho mostram retornos decrescentes.
Modelos de raciocínio, como o o3-mini, R1, o Gemini 2.0 Flash Thinking do Google e o Grok 3 (Think) da xAI, utilizam mais tempo e poder computacional antes de responder às perguntas. Dividindo os problemas em etapas menores, esses modelos tendem a melhorar a precisão da resposta final. Embora não estejam “pensando” ou “raciocinando” exatamente como um humano, seus processos são inspirados na dedução.
Eventualmente, a Anthropic deseja que o Claude descubra por si mesmo por quanto tempo deve “pensar” sobre as questões, sem que seja necessário que os usuários definam controles de antemão, conforme afirmou Diane Penn, líder de produto e pesquisa da empresa, em entrevista.
“De maneira similar a como os humanos não possuem dois cérebros separados para questões que podem ser respondidas imediatamente e aquelas que exigem reflexão, consideramos o raciocínio simplesmente como uma das capacidades que um modelo de fronteira deve possuir, integrando-se de forma harmoniosa com outras habilidades, em vez de ser oferecido por um modelo separado”, escreveu a Anthropic em um post no blog.
A Anthropic destaca que o Claude 3.7 Sonnet exibe sua fase interna de planejamento por meio de um “bloco de anotações visível”. Embora os usuários possam visualizar o processo completo de pensamento para a maioria dos comandos, partes desse processo poderão ser ocultadas por motivos de segurança e confiabilidade.
O processo de pensamento do Claude é exibido no aplicativo, permitindo que os usuários acompanhem como o modelo formula suas respostas.
A empresa afirma ter otimizado os modos de raciocínio do Claude para tarefas do mundo real, como resolver problemas complexos de programação ou executar tarefas agentivas. Desenvolvedores que utilizarem a API da Anthropic poderão controlar o “orçamento” destinado ao raciocínio, equilibrando velocidade, custo e qualidade da resposta.
Em um teste com tarefas de programação do mundo real, o Claude 3.7 Sonnet apresentou uma taxa de acerto de 62,3%, enquanto o modelo o3-mini, da OpenAI, obteve 49,3%. Em outro teste – o TAU-Bench, que avalia a capacidade de um modelo interagir com usuários simulados e APIs externas em um ambiente varejista – o Claude 3.7 Sonnet alcançou 81,2%, comparado aos 73,5% do modelo o1 da OpenAI.
A Anthropic também ressalta que o Claude 3.7 Sonnet se recusa a responder a perguntas indesejadas com menos frequência que seus modelos anteriores, alegando que o novo modelo consegue fazer distinções mais sutis entre comandos prejudiciais e inofensivos. Segundo a empresa, as recusas desnecessárias foram reduzidas em 45% em relação ao Claude 3.5 Sonnet, em um momento em que outros laboratórios estão reavaliando suas abordagens para restringir respostas dos chatbots.
Além do Claude 3.7 Sonnet, a Anthropic está lançando também uma ferramenta de codificação agentiva chamada Claude Code. Disponibilizada inicialmente como prévia de pesquisa, a ferramenta permite que desenvolvedores executem tarefas específicas diretamente pelo terminal por meio do Claude.
Em uma demonstração, funcionários da Anthropic mostraram como o Claude Code pode analisar um projeto de codificação com um comando simples, como “Explique a estrutura deste projeto.” Com instruções em inglês na linha de comando, um desenvolvedor pode modificar uma base de código, pois o Claude Code descreve as alterações realizadas, testa o projeto em busca de erros ou até o envia para um repositório no GitHub.
Inicialmente, o Claude Code estará disponível para um número limitado de usuários, seguindo um sistema de “primeiro a chegar, primeiro a ser atendido”, conforme informou um porta-voz da Anthropic.
A Anthropic lança o Claude 3.7 Sonnet em um momento de intensa velocidade no lançamento de novos modelos de IA. Historicamente, a empresa adotou uma abordagem mais metódica e focada em segurança, mas desta vez ela pretende liderar o setor.
Por quanto tempo o modelo “pensará” é a grande questão. A OpenAI pode estar próxima de lançar seu próprio modelo híbrido de IA, e o CEO da empresa, Sam Altman, já afirmou que ele chegará “em meses”.
Maxwell Zeff é repórter sênior do TechCrunch, especializado em IA e tecnologias emergentes, e já cobriu temas como a ascensão da IA e a crise do Silicon Valley Bank. Baseado em San Francisco, quando não está reportando, Zeff se dedica a atividades ao ar livre, como caminhadas e passeios de bicicleta, além de explorar a cena gastronômica da região.