El algoritmo de IA «Más grande, mejor y más rápido» domina 26 juegos de Atari en solo dos horas, igualando la eficiencia humana.

El aprendizaje por refuerzo es una de las principales áreas de búsqueda de Google DeepMind y algún día podría resolver muchos problemas del mundo real con la IA. Sin embargo, un gran problema es que suele ser muy ineficiente: los algoritmos RL requieren una gran cantidad de datos de entrenamiento y potencia computacional. En su último trabajo, Google DeepMind é investigadores de Mila e la Universidad de Montreal muestran que es posible hacerlo de manera diferente.

Mais grande, mejor y más rápido

El modelo «Más grande, mejor y más rápido» (BBF) logró un rendimiento sobrehumano en las pruebas de Atari. Esto no es nada nuevo: otros agentes de aprendizaje de refuerzo ya han vencido a los humanos en los juegos de Atari.

Sin embargo, BBF aprende con solo dos horas de juego, el mismo tiempo de práctica que los probadores humanos tienen en el punto de referencia. Por lo tanto, el algoritmo de aprendizaje sin modelo logra la eficiencia del aprendizaje humano y requiere significativamente menos potencia computacional que los métodos anteriores. Los agentes sin modelo aprenden directamente de las recompensas y castigos que reciben a través de sus interacciones con el mundo del juego, sin crear explícitamente un modelo del mundo del juego.

El equipo logró esto utilizando una red mucho más grande, métodos de capacitación de autoevaluación y otros métodos para aumentar la eficiencia. Por ejemplo, BBF se puede entrenar en una sola GPU Nvidia A100, mientras que otros enfoques requieren mucha más potencia computacional.

Otras mejoras son posibles, Atari sigue siendo un buen punto de referencia

El equipo señala que BBF aún no es superior a los humanos en todos los juegos en el punto de referencia, lo que excluye 29 de los 55 juegos que generalmente se usan para los agentes de RL. Sin embargo, al comparar BBF con otros modelos en los 55 juegos, se muestra que el algoritmo eficiente está aproximadamente al mismo nivel que los sistemas entrenados con 500 veces más datos.

El equipo también ve esto como indicativo de que el punto de referencia de Atari sigue siendo un buen punto de referencia para RL, lo que hace que la investigación sea financiable para equipos de investigación más pequeños.

Los algoritmos RL eficientes anteriores también han mostrado debilidades en la escalabilidad, mientras que BBF no tiene limitaciones y continúa mejorando su rendimiento con más datos de entrenamiento.

«Em geral, esperamos que nosso trabalho inspire a otros investigadores a continuar avançando na eficiência de muestreo em RL profundo, para finalmente lograr um rendimiento a nível humano em todas as áreas com eficiência a nível humano o sobrehumano», conclui el equipo.

Los algoritmos RL más eficientes pueden restablecer el método en un escenario de IA actualmente dominado por modelos de auto-supervisión.