より大きく、より良く、より速く」AIアルゴリズムは、人間の効率に匹敵する26のアタリゲームをわずか2時間でマスターした。

強化学習はグーグル・ディープマインドの中核的な研究分野のひとつであり、いつの日かAIによって現実世界の多くの問題を解決できるだろう。しかし、大きな問題は、それがしばしば非常に非効率的であることだ。RLアルゴリズムは、大量の学習データと計算能力を必要とする。グーグル・ディープマインドとMilaおよびモントリオール大学の研究者たちは、最新の研究で、これまでとは異なる方法が可能であることを示した。

より大きく、より良く、より速く

より大きく、より良く、より速く」(BBF)モデルは、アタリのテストで超人的なパフォーマンスを達成した。これは目新しいことではなく、他の強化学習エージェントもアタリゲームで人間に勝ったことがある。

しかし、BBFはわずか2時間のゲームプレイから学習する。これは、人間のテスターがベンチマークで行う練習時間と同じである。このように、モデルフリー学習アルゴリズムは、人間の学習効率を達成し、従来の方法よりも大幅に少ない計算能力で済みます。モデルフリー・エージェントは、ゲーム世界のモデルを明示的に作成することなく、ゲーム世界とのインタラクションを通じて受け取る報酬や罰から直接学習します。

研究チームは、より大規模なネットワーク、自己評価学習法、効率を高めるその他の方法を活用することで、これを実現した。例えば、BBFはNvidia A100 GPU1台で学習可能だが、他のアプローチではより多くの計算能力を必要とする。

さらなる改善が可能、アタリはまだ良いベンチマーク

研究チームは、RLエージェントに通常使用される55種類のゲームのうち29種類を除いたベンチマークのすべてのゲームにおいて、BBFが人間より優れているわけではないことを強調している。しかし、55のゲームすべてでBBFを他のモデルと比較すると、この効率的なアルゴリズムは、500倍のデータで訓練されたシステムとほぼ同等であることがわかる。

研究チームはまた、これはアタリベンチマークが依然としてRLのベンチマークとして優れていることを示すものであり、小規模な研究チームでも研究資金を調達できるものだと考えている。

これまでの効率的なRLアルゴリズムは、スケーラビリティに弱点があった。

「全体として、われわれの研究が他の研究者を刺激し、ディープRLにおけるサンプリング効率を継続的に向上させ、最終的にはすべてのタスクで人間レベルの性能を人間レベルまたは超人レベルの効率で達成することを期待している」と研究チームは結論付けている。

より効率的なRLアルゴリズムは、現在自己教師モデルが主流となっているAIの状況において、この手法を再確立する可能性がある。