“`html
## As novas descobertas sobre agentes de IA em código, batalhas legais envolvendo grandes empresas, e avanços em assistentes de compras e modelos multimodais dominam as notícias de hoje.

  • Estudo aponta que metade do código gerado por IA, que passa em testes automáticos, seria rejeitado por desenvolvedores reais
  • Microsoft e pesquisadores rivais se unem para apoiar Anthropic em disputa judicial contra o Pentágono
  • Amazon expande programa Shop Direct, permitindo compras em sites de terceiros via sua plataforma
  • Anthropic atualiza add-ins do Claude para Excel e PowerPoint com contexto compartilhado e workflows reutilizáveis
  • Google lança Gemini Embedding 2, modelo nativo multimodal que unifica texto, imagem, vídeo e áudio em um espaço vetorial único

Últimas novidades

Metade do código gerado por IA aprovado em benchmark seria rejeitado por desenvolvedores reais, revela estudo

Uma pesquisa da organização METR revelou que o conhecido benchmark SWE-bench Verified, usado para aferir a performance de agentes de IA em codificação, superestima significativamente sua qualidade real. Cerca de 50% dos códigos avaliados como “aprovados” pelo teste automático seriam rejeitados por mantenedores reais dos projetos.

Foi feita uma avaliação humana de 296 contribuições de código de IA em projetos open-source, incluindo modelos como Claude e GPT-5. O índice de aceitação humana ficou em média 24 pontos percentuais abaixo da taxa do teste automatizado, destacando disparidades importantes no diagnóstico da qualidade.

Os detalhes

  • Avaliação comparou cinco diferentes modelos de IA, como Claude 3.5, Claude 4.5 e GPT-5;
  • Mantenedores classificaram rejeições em: qualidade ruim do código, danos a códigos existentes, e erros funcionais básicos;
  • Erro funcional básico — onde o código não resolvia o problema apesar do teste passar — foi frequente;
  • Análise temporal mostrou que, para atingir 50% de sucesso, modelos precisariam de até sete vezes mais tempo do que indicado pelo benchmark;
  • Estudo destaca limitações do benchmark e a necessidade do feedback humano para validar de verdade o código gerado por IA.

Por que isso importa?

Esse achado é crucial para quem deseja ver a IA integrada ao desenvolvimento de software, pois mostra que métricas automatizadas não capturam todos os aspectos que fazem o código ser verdadeiramente útil e confiável. Assim como no passado outras tecnologias — como compiladores e IDEs — precisaram da interação humana para evoluir e se consolidar, a IA em programação precisa dessa mesma maturidade e ajuste contínuo com desenvolvedores.

Acompanhar a evolução dos modelos com avaliações realistas evita falsas expectativas e ajuda a construir sistemas que realmente auxiliem, elevando a confiança da comunidade e o impacto positivo da IA no setor.

Microsoft e concorrentes apoiam Anthropic na batalha judicial contra o Pentágono

Microsoft, colaboradores da OpenAI, Google e ex-militares formam uma coalizão para apoiar Anthropic contra a decisão do Departamento de Defesa dos EUA que classificou como risco de segurança seus sistemas de IA.

Microsoft destaca que a medida prejudica contratos militares e que a classificação nunca fora usada contra empresas americanas. Ex-militares argumentam que a ação ameaça o respeito às leis militares e civis, e grupos de direitos civis apontam que fere a liberdade de expressão, pois o governo tenta forçar a Anthropic a alterar princípios do Claude.

Os detalhes

  • Microsoft argumenta que medidas abruptas podem afetar apoio aos militares;
  • 37 funcionários de OpenAI e Google apontam riscos técnicos reconhecidos na IA atual, como opacidade e alucinações;
  • Ex-militares afirmam que a medida mina o estado de direito e promove um precedente perigoso;
  • Grupos civis sustentam que a exigência do Pentágono configura censura e discurso forçado;
  • O caso se destaca pela ampla união do setor privado, militares e sociedade civil em defesa da governança da IA.

Por que isso importa?

Essa situação exemplifica como o avanço da IA exige um equilíbrio delicado entre segurança nacional, inovação tecnológica e direitos civis, um desafio frequente na história de avanços disruptivos. Assim como disputas anteriores sobre infraestruturas críticas ou criptografia, esse embate pode definir o respeito à autonomia das empresas e ao papel da IA na sociedade democrática.

Países e corporações precisam garantir que legislações e regulações acompanhem o ritmo das tecnologias emergentes, para que o potencial transformador da IA seja aproveitado com responsabilidade e ética.

Amazon amplia Shop Direct para permitir compras diretas em sites de outros varejistas

A Amazon expandiu seu programa Shop Direct, que permite aos clientes americanos comprar produtos não disponíveis diretamente na plataforma, enviando-os ao site do varejista parceiro via resultados de busca ou assistente de compras AI, Rufus.

O suporte a feeds de terceiros em tempo real foi ampliado para incluir mais parceiros, facilitando exposição de marcas e simplificando o processo com a funcionalidade Buy for Me, em que um bot AI completa a compra automaticamente. A novidade reforça a posição da Amazon como ponto inicial para buscas e compras online.

Os detalhes

  • Suporte a feeds de Feedonomics, Salsify e CEDCommerce para atualização constante de estoques;
  • Clientes são avisados quando deixam o ambiente Amazon para compra externa, garantindo transparência;
  • Buy for Me usa um assistente AI para automatizar compras externas, mantendo rastreamento unificado;
  • Programa não está restrito a parceiros do Buy with Prime;
  • A Amazon coleta dados comportamentais que podem beneficiar suas próprias estratégias e parcerias.

Por que isso importa?

Essa iniciativa sinaliza a evolução da experiência de compra online, integrando IA e ecossistemas diversos para maior conveniência do usuário. Historicamente, varejistas que dominam a experiência do cliente conquistam maior fidelidade e poder de mercado – a Amazon segue essa tendência com IA para conectar consumidores e vendedores de maneira fluida.

Além disso, o uso estratégico de dados para refinar ofertas e antecipar tendências é um movimento natural em ambientes digitais competitivos, onde a inteligência artificial desempenha papel fundamental na personalização e eficiência.

Add-ins do Claude para Excel e PowerPoint ganham contexto compartilhado e workflows reutilizáveis

A Anthropic atualizou seus complementos do Claude para Excel e PowerPoint, permitindo que os dois aplicativos compartilhem o contexto em uma mesma sessão, com possibilidades de ler valores, criar fórmulas e editar slides sem repetir informações.

Também foram lançadas Skills, workflows compartilháveis para facilitar tarefas comuns, e suporte ampliado aos clouds Amazon Bedrock, Google Cloud Vertex AI e Microsoft Foundry. Os recursos atendem usuários Pro em Windows e Mac, incrementando a produtividade colaborativa.

Os detalhes

  • Contexto compartilhado evita repetições e agiliza processos inter-aplicativos;
  • Skills são workflows pré-configurados para análises financeiras, revisões de apresentações, etc.;
  • Disponibilidade multiplataforma e em provedores de cloud variados;
  • Integração com recursos existentes na app Claude, como o Cowork mode;
  • Equipe Anthropic mira escalabilidade e flexibilidade para diversos ambientes corporativos.

Por que isso importa?

Ao integrar funcionalidades inteligentes e compartilhar estado entre aplicativos, a IA facilita fluxos de trabalho antes manuais e fragmentados, melhorando decisivamente a experiência do usuário. Isso representa a maturação tecnológica rumo a assistentes virtuais corporativos capazes de compreender e antecipar necessidades em múltiplos contextos.

Essa evolução espelha a trajetória das ferramentas digitais que, ao automatizarem etapas repetitivas, liberam o trabalhador intelectual para focar em tarefas criativas, incrementando produtividade e inovação.

Google lança Gemini Embedding 2, modelo multimodal nativo que unifica texto, imagem, vídeo e áudio num único espaço vetorial

O Gemini Embedding 2 amplia a arquitetura Gemini para combinar cinco tipos de dados — texto, imagens, vídeos, áudio e documentos PDF — em um único espaço semântico numérico, simplificando pipelines de IA complexos.

O modelo processa áudio nativamente, suporta entradas intercaladas e oferece tamanho configurável de vetores para balancear qualidade e armazenamento. Benchmark mostra liderança em desempenho frente a concorrentes da Amazon e outras soluções.

Os detalhes

  • Suporta até 8.192 tokens de texto, seis imagens por solicitação e vídeos de até 2 minutos;
  • Processamento de áudio elimina necessidade de transcrição intermediária;
  • Interleaved input permite combinar múltiplas modalidades em um pedido;
  • Matryoshka Representation Learning possibilita escalabilidade nos vetores;
  • Disponível via Gemini API e Vertex AI, integrado a frameworks populares como LangChain e LlamaIndex;
  • Demo e notebooks interativos facilitam testes e adoção por desenvolvedores.

Por que isso importa?

A unificação multimodal em um espaço vetorial único representa um marco na simplificação e eficiência do desenvolvimento de aplicações inteligentes, possibilitando análises e buscas cross-media com maior coesão e rapidez.

Assim como a padronização de protocolos no passado impulsionou a internet e a computação, essa convergência tende a acelerar a inovação em IA, tornando-a mais acessível e poderosa para múltiplas indústrias e usuários.

Conclusão

O cenário de hoje mostra a inteligência artificial avançando rapidamente, mas também desafiando nossas métricas de avaliação e o equilíbrio entre inovação, segurança e direitos. Amanhã certamente traremos mais novidades que ajudam a entender e moldar esse futuro com responsabilidade. Não deixe de acompanhar o blog e siga o André Lug nas redes sociais no @andre_lug para não perder nada!

“`