Na Computex 2025, a Nvidia atualizou seu modelo fundamental para robôs humanóides

Na Computex 2025, a Nvidia revelou uma versão atualizada do seu modelo fundamental para robôs humanóides, o GR00T. Na sua última versão, o GR00T N1.5 se baseia no modelo original anunciado em março e foi projetado para lidar com ambientes não familiares, sendo capaz de reconhecer e executar uma ampla variedade de tarefas de manuseio de materiais.

Construído com uma arquitetura de sistema duplo, o GR00T N1.5 conta com o Sistema 2, que gerencia tarefas cognitivas como planejamento, enquanto o Sistema 1 controla a execução motora em tempo real. O objetivo é equipar robôs humanóides com habilidades de raciocínio e ação generalizadas, similar ao que os modelos avançados de linguagem fizeram com as tarefas linguísticas.

De acordo com a Nvidia, o GR00T N1.5 pode ser treinado em apenas 36 horas utilizando dados sintéticos – um processo que normalmente levaria cerca de três meses com métodos tradicionais.

Entre os primeiros a adotar o modelo estão AeiRobot, Foxlink, Lightwheel e NEURA Robotics. A AeiRobot está utilizando o modelo para controlar fluxos de trabalho industriais de seleção e movimentação por meio de linguagem natural, enquanto a Foxlink busca tornar seus robôs industriais mais flexíveis. Já a Lightwheel está validando o uso de dados sintéticos para treinamento de robôs humanóides na manufatura.

GR00T-Dreams: Dados de treinamento a partir de vídeos gerados por IA

A Nvidia também apresentou um novo projeto intitulado GR00T-Dreams, que utiliza modelos de vídeo baseados em IA orientados por imagens para gerar dados sintéticos de movimento para o treinamento de robôs. O sistema foi desenvolvido sob a direção de Jim Fan, que lidera o grupo de pesquisa em IA generativa incorporada da Nvidia.

Os desenvolvedores inicialmente treinam um modelo do mundo utilizando o Cosmos Predict. Em seguida, o GR00T-Dreams pega uma única imagem e gera um vídeo que mostra um robô realizando uma nova tarefa em um ambiente inédito. O sistema então extrai os chamados tokens de ação – fragmentos de dados compactados que ensinam aos robôs novos comportamentos.

Enquanto robôs reais podem coletar apenas uma quantidade limitada de dados diariamente, com o GR00T-Dreams os desenvolvedores podem gerar a quantidade necessária de dados de treinamento. Os vídeos são produzidos pelo gerador de vídeos Cosmos AI, que foi aprimorado com filmagens de robôs dos laboratórios da Nvidia, e são incorporados à cadeia de treinamento.

Novos sistemas de simulação estreitam a distância entre simulação e realidade

Para acelerar ainda mais o treinamento e os testes, a Nvidia anunciou atualizações em diversas estruturas abertas de simulação e dados, incluindo o Isaac Sim 5.0 e o Isaac Lab 2.2, ambos disponíveis no GitHub. O Isaac Lab agora oferece novos ambientes de teste para os modelos GR00T N, e a Nvidia está disponibilizando um conjunto de dados de código aberto contendo 24 mil sequências de movimento de alta qualidade para robôs humanóides.

Um novo modelo de mundo chamado Cosmos Reason também foi lançado, utilizando uma abordagem de “cadeia de pensamento” para selecionar dados sintéticos de alta qualidade para treinamento. Além disso, o Cosmos Predict 2, que alimenta o GR00T-Dreams, deve ser lançado em breve no Hugging Face.

Para completar o conjunto, o projeto GR00T-Mimic, apresentado em março, gera grandes volumes de dados sintéticos de movimento para tarefas de manipulação a partir de poucas demonstrações humanas. Empresas como Foxconn e Foxlink já estão utilizando essa tecnologia para acelerar seus processos de treinamento.