Esta semana em tecnologia: 24.02.2025

Resumo dos desenvolvimentos em IA – Confira os principais avanços e anúncios recentes do universo da inteligência artificial, sintetizados para quem tem rotina agitada.

Aplicações

A HuggingFace, conhecida por oferecer conteúdos incríveis gratuitamente para a comunidade, superou todas as expectativas nesta semana. Seu novo livro aborda temas complexos, como 5D parallelism, ZeRO, otimizações de kernel CUDA e a sobreposição entre computação e comunicação em treinamentos de IA em larga escala. O material detalha gargalos de escalabilidade, aspectos internos do PyTorch e técnicas de paralelismo, incluindo ZeRO-3, pipeline, paralelismo sequencial e de contexto. Saiba mais em HuggingFace Ultrascale Playbook.

A Meta formou uma nova equipe de robótica no Reality Labs, liderada pelo ex-CEO da Cruise, Marc Whitten. A unidade, focada no desenvolvimento de sistemas de IA e hardware para robôs domésticos, pretende colaborar com empresas como Unitree Robotics e Figure AI. Essa reestruturação ocorreu na mesma semana em que a Meta dispensou 4 mil funcionários globalmente, poupando, em sua maioria, os especialistas em IA – um movimento que remete a purgas de grande impacto.

O Perplexity lançou o DeepSeek-R1 sem censura, batizando-o de variante 1776. Com um estilo ousado, o sistema permite explorar uma ampla gama de tópicos sensíveis – conforme definidos por determinadas políticas – e deixa em aberto questões sobre linhas partidárias em diferentes partes do mundo. Confira a página do modelo em HuggingFace.

A OpenAI apresentou um novo benchmark chamado “SWE-Lancer”, que avalia modelos de IA em tarefas reais de desenvolvimento freelance de software extraídas da Upwork (1,5 mil projetos, somando mais de 1 milhão de dólares). Em condições simuladas, modelos líderes como Claude e ChatGPT poderiam faturar até 400 mil dólares. Os resultados indicam que o Claude 3.5 Sonnet se destacou em tarefas de engenharia de software, alinhado à sua utilização como base pela ByteDance em seu TRAE IDE TRAE. Consulte o paper e o repositório.

O Google apresentou o “AI co-scientist” – um sistema de pesquisa científica automatizada com arquitetura hierárquica de múltiplos agentes. A solução conta com seis agentes especializados gerenciados por um agente supervisor, cada qual responsável por tarefas como criação, reflexão, classificação, evolução, verificação de proximidade e meta-revisão. Testes realizados identificaram medicamentos que podem ser reaproveitados no tratamento de leucemia e descobriram novos alvos terapêuticos para fibrose hepática. Em um experimento diferente, um sistema de IA respondeu a uma questão de pesquisa que o Dr. Penadés, do Imperial College London, levou uma década para concluir – além de sugerir quatro mecanismos viáveis que sua equipe não havia considerado. Mais informações podem ser encontradas no blog do Google Research.

Há também uma iniciativa notável usando CUDA para otimizar kernels em execução eficiente de agentes de IA, demonstrando o potencial para acelerar tarefas específicas. Confira os detalhes em sakana.ai.

Negócios

Como as pessoas utilizam a IA generativa está sendo constantemente analisado. A Anthropic divulgou um relatório bastante interessante, baseado na análise de inúmeros prompts submetidos ao Claude. Confira o relatório em Anthropic Economic Index.

Enquanto isso, os tweets enigmáticos de Sam Altman ganham destaque. Em uma análise linha a linha, seu recente tweet sobre o roadmap de produtos da OpenAI sugeriu mudanças abrangentes no portfólio de modelos e antecipou um cronograma para o lançamento do GPT-5.

Para ilustrar fenômenos do mercado, um ministro de Singapura revelou que, apesar do país representar quase 28% da receita da Nvidia em 2024, menos de 1% dos produtos vendidos são de fato entregues localmente – um contraste marcante discutido amplamente na mídia especializada. Saiba mais em Tom's Hardware.

Cutting Edge

A xAI lançou o Grok-3, seu mais recente modelo de IA, que supostamente supera concorrentes como GPT-4o, Claude 3.5 Sonnet e Gemini-2 Pro em benchmarks importantes – incluindo AIME'24 para matemática, GPQA para ciência de nível pós-graduado e LiveCodeBench para programação. Entre seus diferenciais, destacam-se o “Modo Pensar” para processamento lógico, o “Modo Cérebro Grande” para resolução de problemas complexos e o “DeepSearch” para recuperação de informações. Uma versão reduzida, o Grok-3 mini, foi lançada priorizando velocidade sobre exatidão, com medidas para evitar a extração de conhecimento por meio de ataques de destilação. Em meio a críticas e análises diversas, o futuro deste modelo segue em aberto.

Os testes iniciais não pintam um quadro totalmente positivo. Feedbacks, como o de Marcus sobre a versão beta do Grok-3, sugerem que ainda há desafios a serem superados.

Fringe

O Gemini segue sua trajetória de forma estável – lembrando que problemas só se tornam relevantes quando comparados a padrões extremamente exigentes.

Pesquisas

Novas abordagens surgem na área de modelos de linguagem. Pesquisadores propõem o LLaDA, uma técnica baseada em difusão mascarada com Transformers que compete com os principais modelos autoregressivos em diversos benchmarks. Com 8 bilhões de parâmetros e treinado com 2,3 trilhões de tokens, o LLaDA apresenta desempenho comparável a modelos baseados no LLaMA para matemática, programação e análises gerais, sugerindo um caminho alternativo para a modelagem de linguagem. Confira os detalhes no paper.

Além disso, um estudo recente alerta para os riscos de desenvolver agentes de IA totalmente autônomos. A pesquisa, que se apoia em literatura científica e análises de marketing de produtos atuais, argumenta que quanto maior a autonomia do agente, maiores os riscos – especialmente no que diz respeito à segurança e impactos na vida humana. Saiba mais em este documento.

Por fim, um repositório disponibiliza uma ferramenta que permite a qualquer sistema de edição de geração de imagens incorporar funcionalidades avançadas de edição. Confira em Stable Flow.