GettyImages 642109519

Na terça-feira, o Google DeepMind lançou um novo modelo de linguagem chamado Gemini Robotics On-Device, capaz de executar tarefas localmente em robôs sem necessitar de conexão com a internet.

O novo modelo expande o trabalho do Gemini Robotics anteriormente lançado e permite controlar os movimentos de um robô. Os desenvolvedores podem ajustar e parametrizar o sistema para diversas aplicações por meio de comandos em linguagem natural.

Em testes, o Google afirma que o desempenho do modelo se aproxima daquele fornecido pela versão baseada em nuvem do Gemini Robotics e supera outros modelos locais em benchmarks gerais, embora os concorrentes não tenham sido citados.

image

Em uma demonstração, a empresa exibiu robôs utilizando o modelo local para realizar tarefas como descompactar sacolas e dobrar roupas. Segundo o Google, embora o sistema tenha sido originalmente treinado para robôs ALOHA, ele foi adaptado para operar com um robô bi-manual Franka FR3 e com o robô humanóide Apollo desenvolvido pela Apptronik.

O Google ressalta que o robô bi-manual Franka FR3 foi capaz de enfrentar cenários e manipular objetos até então não “vistos” pelo sistema, como na montagem em uma linha industrial (processo de montagem industrial).

Além disso, o Google DeepMind está disponibilizando o Gemini Robotics SDK, que permite aos desenvolvedores treinar robôs em novas tarefas. Utilizando o simulador de física MuJoCo, é possível mostrar de 50 a 100 demonstrações de uma tarefa para orientar o aprendizado do modelo.

Outros pioneiros em inteligência artificial também estão avançando na área de robótica. Enquanto a Nvidia trabalha no desenvolvimento de uma plataforma para criação de modelos fundamentais, a Hugging Face não só está desenvolvendo modelos e conjuntos de dados abertos para robótica como também investe no desenvolvimento de robôs. Da mesma forma, a startup sul-coreana RLWRLD, apoiada pela Mirae Asset, está empenhada na criação de modelos essenciais para a área.