El Puente Visión-Robótica (VRB por sus siglas en inglés, Vision-Robotics Bridge) aprende las posibilidades de los entornos para acelerar el aprendizaje de los robots.

Varios proyectos de investigación están explorando cómo los robots pueden aprender a partir de videos, ya que no hay suficientes datos de entrenamiento para los robots, una de las razones por las cuales OpenAI, por ejemplo, ha interrumpido su propia investigación en robótica.

Obtener datos de entrenamiento completos para los robots requeriría que muchos robots realizaran acciones en el mundo real, pero necesitarían ser entrenados previamente, lo cual plantea un problema de causa y efecto. El entrenamiento a través de videos se considera una posible solución, ya que los modelos de IA podrían aprender cómo los humanos interactúan con el entorno a partir de los datos de video y luego transferir esas habilidades a los robots.

El Puente Visión-Robótica desarrolla un modelo de posibilidades para los robots

El término «posibilidades», acuñado por el psicólogo estadounidense James J. Gibson, se refiere al hecho de que los seres vivos no ven los objetos y características de su entorno en términos de sus cualidades, sino principalmente como una oferta para el individuo. Por ejemplo, los seres vivos no perciben un río simplemente como agua en movimiento, sino como una oportunidad para beber.

El equipo de la Universidad Carnegie Mellon y Meta AI se guía por este concepto y define la posibilidad en el contexto de la robótica como la suma del punto de contacto y las trayectorias posteriores al contacto. El modelo de IA aprende a partir de videos para identificar objetos con acciones posibles, así como patrones de movimiento posibles después de agarrar un objeto.

image 172

Imagen: Bahl, Mendonca et al.

Por ejemplo, aprende que se abre una nevera tirando del mango y en qué dirección lo hace una persona. En el caso de un cajón, reconoce el mango y aprende la única dirección correcta de movimiento para abrirlo.

Video: CMU / Meta

Video: CMU / Meta

La VRB se prueba en 200 horas de pruebas en el mundo real

En robótica, el objetivo de la VRB es proporcionar a un robot una percepción contextualizada para ayudarlo a aprender sus tareas más rápidamente. El equipo demuestra que la VRB es compatible con cuatro paradigmas de aprendizaje diferentes y aplica la VRB en cuatro entornos del mundo real, en más de diez tareas diferentes, utilizando dos plataformas de robots diferentes.

En experimentos extensivos que duraron más de 200 horas, el equipo demostró que la VRB es muy superior a enfoques anteriores. En el futuro, los investigadores planean aplicar su método en tareas más complejas y con múltiples pasos, incorporar conceptos físicos como fuerza e información táctil, e investigar las representaciones visuales aprendidas por la VRB.

Más información está disponible en la página del proyecto VRB. El código y el conjunto de datos también estarán disponibles pronto allí.