OpenAIの新チームは、人間よりはるかに賢くなる未来のAIシステムが人間の意図に従うことを保証するために、超知能の調整という課題に取り組んでいる。

イリヤ・スーツケバーとヤン・ライケが共同で率いるこのチームは、AIシステムの安全な制御を保証するための科学的・技術的ブレークスルーを見つけることに専念している。

この新しいチームの野心的な目標は、人間と同等の能力を持つ「初の自動アライメント研究者」を作ることである。チームは、「膨大な処理量」を活用して「超知能を反復的に整列」させ、わずか4年で、超知能整列の中核となる技術的課題を解決したいと考えている。OpenAIは、現在保証されている処理能力の20%をこの目標に捧げている。

超知能アライメントは基本的に機械学習の問題であり、現在アライメントに取り組んでいないとしても、優れた機械学習の専門家がその解決に不可欠であると我々は信じている。

オープンAI

最近、人工超知能による絶滅というディストピアは、現在のAIの危険性から目をそらすために作られたものだという批判が高まっている。

「とてつもなく野心的な目標

この “とてつもなく野心的な目標 “を達成するために、チームはスケーラブルなトレーニング方法を開発し、得られたモデルを検証し、アライメントプロセスについて厳密なテストを実施することを計画している。

彼らは、スケーラブルなモニタリングと汎化に重点を置くつもりで、人間が評価するのが難しいタスクのトレーニング信号を提供するのに役立つ。さらに、システムのアライメントを検証するために、問題のある行動や問題のある内部プロセスの探索を自動化し、敵対的テストを用いてプロセス全体を評価することも計画している。

研究の優先順位が変わる可能性があることは認識しているが、チームはこの問題についてさらに学び、新しい研究分野をアプローチに取り入れる可能性がある。OpenAIは「この試みの結果を広く共有する」ことを約束し、このイニシアティブに参加する研究者やエンジニアを募集している。

新チームの活動は、現在のモデルの安全性を向上させ、誤用、経済的混乱、誤情報、偏見と差別、中毒と依存など、AIに関連する他のリスクを理解し軽減することを目的とした、現在進行中のOpenAIのプロジェクトを補完することになる。