Google DeepMindのRobotCatは、複数のロボットアームを制御することができ、自己生成されたデータによって常に自己改善している。

RobotCatは、複数のロボットアームで様々なタスクを学習し、自律的に新しい学習データを生成して自己改善する、ロボット工学のための自己改善型AIエージェントである。そうすることで、チームはロボット工学分野の根本的な問題を解決することを目指している。AIの進歩は汎用ロボットにつながるが、必要な実世界データの収集に時間がかかるため、開発が遅れているのだ。

Robotic Transformer 1やPaLM-SayCanのようなプロジェクトで、グーグルはAIの他の分野の専門知識をロボット工学に応用しようとしている。しかし、Google DeepMindによると、RoboCatは複数のタスクを解決し、現実世界のさまざまなロボットに適応できる初のAIエージェントだという。

Google DeepMindのRoboCatは、DeepMindのCatをベースにしている。

さらに、RoboCatは他のモデルよりもはるかに速く学習する。このAIエージェントは、100回から1,000回のデモンストレーションで新しいタスクを学習することができる。

「この能力は、人間による教師付きトレーニングの必要性を減らし、汎用ロボットの実現に向けた重要な一歩となるため、ロボット研究の加速に役立つだろう」と研究チームは述べている。

RoboCatはディープマインドのCatをベースにしており、シミュレーション環境と実環境の両方で言語、画像、行動を処理することができる。研究チームは、Catにいくつかの改良を加え、数百のタスクを実行するさまざまなロボットアームの画像とアクションのシーケンスを含む大規模なトレーニングデータセットを使用してモデルを訓練した。

このトレーニングの後、RoboCatの自己改善段階が始まり、システムは未知のタスクの実行を学習する。トレーニングは5段階で行われる:

  • 人間が操作するロボットアームを使って、新しいタスクやロボットのデモンストレーションを100~1,000回行う。
  • 新しいタスク/アーム用にロボキャットを微調整し、派生した特殊なエージェントを作成する。
  • 派生エージェントは、新しいタスク/アームを平均10,000回実践し、より多くのトレーニングデータを生成する。
  • デモデータと自己生成データは、既存のRoboCatトレーニングデータセットに統合されます。
  • そして、新しいバージョンのRoboCatが、新しいトレーニングデータセットを使ってトレーニングされる。
como funciona o robocat

経験とともに向上するRoboCatの学習能力

このような学習努力の積み重ねにより、RoboCatは、自己生成データを含む数百万件の実ロボットアームの軌跡とシミュレーションデータのデータセットを手に入れることができる。そして、RoboCatが学習すればするほど、AIエージェントは次のタスクをよりよく学習できるようになる。例えば、RoboCatの最初のバージョンは、500の例で、新しいタスクを36回しか解決できなかった。

「これらの改善は、RoboCatが経験の幅を広げた結果です。これは、人がある領域での学習を深めるにつれて、より多様なスキルを身につけるのと同様です。”RoboCatが独自にスキルを学習し、迅速にスキルアップする能力は、特に異なるロボットデバイスに適用した場合、より有用な新世代の汎用ロボットエージェントへの道を開くのに役立つだろう。”

詳細はGoogle DeepMindのRoboCatブログ記事を参照。