O Google Deepmind apresentou dois novos modelos de IA, Gemini Robotics 1.5 e Gemini Robotics-ER 1.5, desenvolvidos para permitir que robôs planejem, compreendam e executem tarefas complexas de forma autônoma. Ambos os modelos combinam percepção multimodal, processamento de linguagem e controle motor com um sistema interno de tomada de decisões.
Planeje primeiro, depois aja
O Gemini Robotics-ER 1.5 atua como um “cérebro” de alto nível para os robôs. Ele gerencia o planejamento de tarefas, utiliza ferramentas digitais como o Google Search, comunica-se em linguagem natural e monitora o progresso e as taxas de sucesso. Segundo o Google Deepmind, o modelo apresenta resultados de ponta em 15 benchmarks de raciocínio incorporado, incluindo Point-Bench, ERQA e MindCube.
O segundo modelo, Gemini Robotics 1.5, traduz esses planos em ações físicas. Diferentemente dos modelos anteriores que integravam visão, linguagem e ação, ele raciocina antes de agir: constrói cadeias lógicas internas, planeja etapas intermediárias, divide tarefas complexas e pode explicar suas decisões. Por exemplo, ao organizar a lavanderia, o modelo identifica o objetivo – como “roupas claras na lixeira branca” –, planeja a melhor forma de agarrá-las e executa o movimento.
Adapta-se a diferentes plataformas robóticas
Ambos os modelos conseguem generalizar suas capacidades para diferentes tipos de robôs. Segundo o Google, os padrões de movimento aprendidos com o robô ALOHA 2 também funcionam em plataformas como o Apollo da Apptronik ou no robô Franka de dois braços, sem a necessidade de ajustes adicionais.
Os modelos contam com verificações de segurança integradas. Antes de executar uma ação, o Gemini Robotics 1.5 verifica se o movimento é seguro e pode ativar recursos, como a prevenção de colisões, se for necessário.
Ambos os modelos são baseados na ampla família Gemini multimodal e foram especificamente adaptados para a robótica. O Gemini Robotics-ER 1.5 está disponível por meio da API Gemini no Google AI Studio, enquanto o Gemini Robotics 1.5 encontra-se atualmente limitado a parceiros selecionados. Mais detalhes técnicos estão disponíveis no blog de desenvolvimento do Deepmind.
O Google introduziu pela primeira vez a família Gemini Robotics em março de 2025 para proporcionar aos robôs uma compreensão multimodal. Em junho, a empresa lançou o Gemini Robotics On-Device, uma versão local otimizada para adaptação rápida e destreza robusta no hardware robótico.
Os modelos mais recentes ampliam esses avanços ao oferecer um planejamento mais robusto, uma melhor utilização de ferramentas e a capacidade de operar como sistemas autônomos, refletindo os progressos obtidos com a IA agente em computadores.
