Com um novo conjunto de dados, a Deepmind fez parceria com muitas outras instituições para preencher a lacuna de dados no treinamento de robôs e permitir a generalização das capacidades dos robôs em todos os tipos de robôs. Os primeiros resultados são promissores.
O Google Deepmind, em colaboração com 33 laboratórios acadêmicos, lançou um novo conjunto de dados e modelos destinados a promover o aprendizado generalizado em robótica em diferentes tipos de robôs.
Os dados são de 22 tipos diferentes de robôs. O objetivo é desenvolver modelos de robôs que possam generalizar melhor suas capacidades em diferentes tipos de robôs.
Rumo a um robô de uso geral
Até agora, um modelo de robô separado tinha que ser treinado para cada tarefa, cada robô e cada ambiente. Isso exige muito da coleta de dados. Além disso, a menor mudança em uma variável significava que o processo tinha que começar tudo de novo, de acordo com a Deepmind.
O objetivo da iniciativa Open-X é encontrar uma maneira de reunir conhecimento sobre diferentes robôs (corporações) e treinar um robô universal. Essa ideia levou ao desenvolvimento do conjunto de dados de incorporação Open-X e do RT-1-X, um modelo de transformador robô derivado do RT-1 (Robotic Transformer-1) e treinado no novo conjunto de dados.
Testes em cinco laboratórios de pesquisa diferentes mostraram um aumento médio de 50% no sucesso da conclusão de tarefas quando o RT-1-X assumiu o controle de cinco robôs comuns em comparação com os modelos de controle específicos do robô.
Um conjunto de dados para treinamento de robôs de uso geral
O conjunto de dados Open X Embodiment foi desenvolvido em colaboração com laboratórios de pesquisa acadêmica de mais de 20 instituições. Ele agrega dados de 22 robôs que representam mais de 500 capacidades e 150.000 tarefas em mais de um milhão de fluxos de trabalho.
O conjunto de dados é uma ferramenta importante para treinar um modelo generalista que pode controlar muitos tipos de robôs, interpretar diferentes instruções, fazer inferências básicas sobre tarefas complexas e generalizar de forma eficiente, de acordo com a Deepmind.
Capacidades emergentes no modelo de robô
A versão RT-2 do modelo de ação em linguagem visual RT-2-X, apresentado neste verão, triplicou suas capacidades como um robô do mundo real em potencial depois de ser treinado com o conjunto de dados Open-X. Os experimentos mostraram que o co-treinamento com dados de outras plataformas deu ao RT-2-X recursos adicionais não presentes no conjunto de dados RT-2 original.
O modelo RT-2 utiliza grandes modelos de linguagem para o raciocínio e como base para suas ações. Por exemplo, pode raciocinar por que uma rocha é um martelo improvisado melhor do que um pedaço de papel, e aplicar essa capacidade a diferentes cenários de aplicação.
Após o treinamento no conjunto de dados X, ele foi capaz de melhorar essas habilidades. Por exemplo, o RT-2-X mostrou uma melhor compreensão das relações espaciais entre objetos, sendo capaz de distinguir gradações finas como “colocar a maçã no pano” ou “colocar a maçã perto do pano”.
O RT-2-X mostra que o treinamento com dados de outros robôs também pode melhorar robôs já capazes que foram treinados com muitos dados, escreve a Deepmind.
A conclusão da equipe de pesquisa é semelhante: escalar as capacidades dos robôs usando dados de diferentes tipos de robôs funciona, dizem eles, e produz “melhorias dramáticas de desempenho”. Pesquisas futuras poderiam analisar como os modelos de robôs podem aprender melhor com a experiência para melhorar a si mesmos.