L’algorithme d’IA « Bigger, Better, Faster » maîtrise 26 jeux Atari en seulement deux heures, égalant ainsi l’efficacité humaine.

L’apprentissage par renforcement est l’un des principaux domaines de recherche de Google DeepMind et pourrait un jour permettre de résoudre de nombreux problèmes du monde réel grâce à l’IA. Toutefois, l’un de ses principaux problèmes est qu’il est généralement très inefficace : les algorithmes d’apprentissage par renforcement requièrent une grande quantité de données d’entraînement et de puissance de calcul. Dans leurs derniers travaux, Google DeepMind et des chercheurs de Mila et de l’Université de Montréal montrent qu’il est possible de procéder différemment.

Plus grand, meilleur, plus rapide

Le modèle « Bigger, Better, Faster » (BBF) a atteint des performances surhumaines lors des tests Atari. Ce n’est pas nouveau – d’autres agents d’apprentissage par renforcement ont déjà battu des humains aux jeux Atari.

Cependant, le modèle BBF apprend avec seulement deux heures de jeu, soit le même temps d’entraînement que celui dont disposent les testeurs humains pour les tests de référence. Ainsi, l’algorithme d’apprentissage sans modèle atteint l’efficacité de l’apprentissage humain et nécessite beaucoup moins de puissance de calcul que les méthodes précédentes. Les agents sans modèle apprennent directement à partir des récompenses et des punitions qu’ils reçoivent lors de leurs interactions avec le monde du jeu, sans créer explicitement un modèle du monde du jeu.

L’équipe est parvenue à ce résultat en utilisant un réseau beaucoup plus vaste, des méthodes d’apprentissage par auto-évaluation et d’autres méthodes visant à accroître l’efficacité. Par exemple, le BBF peut être entraîné sur un seul GPU Nvidia A100, alors que d’autres approches nécessitent une puissance de calcul beaucoup plus importante.

D’autres améliorations sont possibles, Atari reste une bonne référence

L’équipe souligne que le BBF n’est toujours pas supérieur aux humains dans tous les jeux du benchmark, qui exclut 29 des 55 jeux couramment utilisés pour les agents RL. Toutefois, la comparaison du BBF avec d’autres modèles dans les 55 jeux montre que l’algorithme efficace est à peu près au même niveau que les systèmes formés sur 500 fois plus de données.

L’équipe considère également que cela indique que le benchmark Atari est toujours un bon benchmark pour le RL, ce qui rend la recherche finançable pour les petites équipes de recherche.

Les algorithmes RL efficaces précédents ont également montré des faiblesses en termes d’évolutivité, alors que BBF n’a pas de limites et continue d’améliorer ses performances avec davantage de données d’entraînement.

« Dans l’ensemble, nous espérons que notre travail incitera d’autres chercheurs à continuer d’améliorer l’efficacité de l’échantillonnage dans le cadre du RL profond, afin d’obtenir à terme des performances de niveau humain pour toutes les tâches avec une efficacité de niveau humain ou surhumain », conclut l’équipe.

Des algorithmes RL plus efficaces peuvent rétablir la méthode dans un paysage de l’IA actuellement dominé par des modèles auto-supervisés.