O algoritmo de IA “Bigger, Better, Faster” domina 26 jogos do Atari em apenas duas horas, igualando a eficiência humana.

O aprendizado por reforço é uma das áreas de pesquisa principais do Google DeepMind e poderia, um dia, resolver muitos problemas do mundo real com a IA. No entanto, um grande problema é que geralmente é muito ineficiente: os algoritmos de RL exigem uma grande quantidade de dados de treinamento e poder computacional. Em seu trabalho mais recente, o Google DeepMind e pesquisadores do Mila e da Université de Montréal mostram que é possível fazer de forma diferente.

Maior, Melhor e Mais Rápido

O modelo “Bigger, Better, Faster” (BBF) alcançou desempenho super-humano nos testes do Atari. Isso não é novidade – outros agentes de aprendizado por reforço já venceram os humanos nos jogos do Atari.

No entanto, o BBF aprende com apenas duas horas de jogo, o mesmo tempo de prática que os testadores humanos têm no benchmark. Assim, o algoritmo de aprendizado sem modelo alcança a eficiência de aprendizado humana e requer significativamente menos poder computacional do que os métodos anteriores. Agentes sem modelo aprendem diretamente das recompensas e punições que recebem por meio de suas interações com o mundo do jogo, sem criar explicitamente um modelo do mundo do jogo.

A equipe alcançou isso utilizando uma rede muito maior, métodos de treinamento de autoavaliação e outros métodos para aumentar a eficiência. Por exemplo, o BBF pode ser treinado em uma única GPU Nvidia A100, enquanto outras abordagens exigem muito mais poder computacional.

Melhorias adicionais são possíveis, o Atari ainda é um bom benchmark

A equipe destaca que o BBF ainda não é superior aos humanos em todos os jogos do benchmark, que exclui 29 dos 55 jogos geralmente usados para agentes de RL. No entanto, comparando o BBF a outros modelos em todos os 55 jogos, mostra-se que o algoritmo eficiente está aproximadamente no mesmo nível dos sistemas treinados com 500 vezes mais dados.

A equipe também vê isso como um indicativo de que o benchmark do Atari ainda é um bom benchmark para RL, tornando a pesquisa financiável para equipes de pesquisa menores.

Algoritmos eficientes anteriores de RL também mostraram fraquezas em escalabilidade, enquanto o BBF não tem limitações e continua a melhorar seu desempenho com mais dados de treinamento.

“No geral, esperamos que nosso trabalho inspire outros pesquisadores a continuarem avançando a eficiência de amostragem em deep RL, para eventualmente alcançar um desempenho de nível humano em todas as tarefas com eficiência de nível humano ou super-humana”, conclui a equipe.

Algoritmos de RL mais eficientes podem reestabelecer o método em um cenário de IA atualmente dominado por modelos de auto-supervisão.