El RobotCat de Google DeepMind puede controlar múltiples brazos robóticos y está constantemente mejorando a través de los datos que genera por sí mismo.
El RobotCat es un agente de IA auto-mejorable para robótica que aprende diversas tareas en diferentes brazos robóticos y genera de manera autónoma nuevos datos de entrenamiento para mejorar su rendimiento. Al hacerlo, el equipo busca abordar un problema fundamental en el campo de la robótica: los avances en IA pueden llevar a robots de propósito general, pero el desarrollo es lento debido al tiempo necesario para recopilar los datos del mundo real requeridos.
Con el Robotic Transformer 1 y proyectos como el PaLM-SayCan, Google también está tratando de aplicar su experiencia en otras áreas de la IA a la robótica. Sin embargo, según Google DeepMind, el RobotCat es el primer agente de IA capaz de resolver múltiples tareas y adaptarse a diferentes robots del mundo real.
El RobotCat de Google DeepMind se basa en el Cat de DeepMind
Además, el RoboCat también aprende mucho más rápido que otros modelos: el agente de IA puede aprender nuevas tareas con 100 a 1.000 demostraciones; otros modelos no pueden igualar la tasa de éxito del RobotCat con ese número de demostraciones.
«Esta capacidad ayudará a acelerar la investigación en robótica, ya que reduce la necesidad de entrenamiento supervisado por humanos y es un paso importante hacia la creación de un robot de propósito general», afirmó el equipo.
El RoboCat se basa en el Cat de DeepMind, que puede procesar lenguaje, imágenes y acciones tanto en entornos simulados como en el mundo real. El equipo realizó algunas adaptaciones en el Cat y entrenó el modelo utilizando un gran conjunto de datos de entrenamiento que contiene secuencias de imágenes y acciones de diferentes brazos robóticos realizando cientos de tareas.
Después de este entrenamiento, comienza la fase de auto-mejoramiento del RoboCat, en la cual el sistema aprende a realizar tareas previamente desconocidas. El entrenamiento se lleva a cabo en cinco etapas:
- Recopilación de 100 a 1.000 demostraciones de una nueva tarea o robot con un brazo robótico controlado por un humano.
- Ajuste fino del RoboCat para la nueva tarea/brazo, creando un agente especializado derivado.
- El agente derivado practica la nueva tarea/brazo aproximadamente 10.000 veces, generando más datos de entrenamiento.
- Los datos de las demostraciones y los datos generados automáticamente se integran en el conjunto de datos de entrenamiento existente del RoboCat.
- Luego, se entrena una nueva versión del RoboCat utilizando el nuevo conjunto de datos de entrenamiento.
La capacidad de aprendizaje del RoboCat mejora con la experiencia
Al combinar todos estos esfuerzos de entrenamiento, el RoboCat tiene un conjunto de datos de millones de trayectorias de brazos robóticos reales y simulados, incluyendo datos autogenerados. Con base en esto, el RoboCat puede aprender a controlar nuevos brazos robóticos, incluso con garras diferentes, en cuestión de horas, y cuanto más aprende el RoboCat, mejor el agente de IA puede aprender las siguientes tareas. Por ejemplo, la primera versión del RoboCat, con 500 ejemplos, resolvía nuevas tareas solo el 36% del tiempo; la versión final actual, con un número significativamente mayor de tareas, duplicó la tasa de éxito.
«Estas mejoras fueron resultado de la creciente amplitud de experiencia del RoboCat, similar a cómo las personas desarrollan una gama más diversa de habilidades a medida que profundizan su aprendizaje en un dominio específico», afirmó la empresa. «La capacidad del RoboCat para aprender habilidades de forma independiente y mejorar rápidamente, especialmente cuando se aplica a diferentes dispositivos robóticos, ayudará a allanar el camino para una nueva generación de agentes robóticos de propósito general más útiles».
Para obtener más información, consulta la publicación en el blog del RoboCat de Google DeepMind.