2018年以来、Microsoft内部の専門チームが機械学習システムのセキュリティ向上に取り組んできました。しかしながら、新たな生成型AIツールの公開により、この分野は急速に進化しています。

ほとんどの人々にとって、日常的に人工知能ツールを使用するというアイデアは、ここ数か月で人気となったばかりです。OpenAIのChatGPTやGoogleのBardなど、さまざまな大手テクノロジー企業やスタートアップが新しい生成型AIツールを発表しました。しかしながら、舞台裏では、これらの新しいAIシステムをどのように評価し保護するかという問題について、数年にわたり技術が拡散してきました。月曜日、Microsoftは、2018年以来、AIプラットフォームに攻撃を仕掛けてその脆弱性を明らかにする方法を見つけるためのチームに関する詳細を明らかにしています。

設立から5年間で、MicrosoftのAIレッドチームは、本質的には実験であったものから、機械学習の専門家、サイバーセキュリティ研究者、さらにはエンジニアまで、異なる専門分野を持つ多様な専門家からなるチームに成長しました。このグループは、従来のセキュリティの言語を使用して、Microsoft内部およびテクノロジー業界全体にその発見を伝えるために取り組んでおり、多くの人々や組織がまだ持っていないAIの専門知識を必要とせずにアクセス可能であるようにしています。しかし、実際には、チームはAIセキュリティが従来のデジタル防御とは異なる重要な概念的違いを持つことを結論付け、そのためにAIレッドチームのアプローチも異なるものである必要があると認識しています。

MicrosoftのAIレッドチームの創設者であるRam Shankar Siva Kumarは、「最初に始めたときの質問は『何が根本的に異なるのか?なぜAIレッドチームが必要なのか?』というものでした」と述べています。「ただし、AIレッドチームを単なる従来のレッドチームとして見るか、セキュリティのマインドセットだけを取り入れると、それだけでは不十分かもしれません。今ではAIの責任、つまりAIシステムの不具合に関する責任、つまり攻撃的なコンテンツの生成、根拠のないコンテンツの生成に対する責任を認識しなければなりません。これがAIレッドチームの聖杯です。セキュリティの欠陥だけでなく、責任あるAIの不具合にも目を向けることです。」

Shankar Siva Kumarは、この違いを強調し、AIレッドチームの使命が実際にはこの二重の焦点を持つことになると示すのに時間がかかったと述べています。初期の作業の大部分は、2020年にMicrosoft、非営利のP&DグループMITRE、他の研究者との共同作業であるAdversarial Machine Learning Threat Matrixのような従来のセキュリティツールのリリースに関連していました。その年、グループはまた、オープンソースのAIセキュリティテスト用の自動化ツールであるMicrosoft Counterfitをリリースしました。そして、2021年には、AIセキュリティのリスク評価のための追加のフレームワークを公開しました。

しかし、時間の経過とともに、AI学習の欠陥と問題に対処する緊急性がますます明らかになるにつれて、MicrosoftのAIレッドチームは進化し拡大することができました。

初期の段階では、チームはMicrosoftのクラウド展開サービスを評価しました。このサービスには機械学習のコンポーネントが含まれており、チームはクラウドサービスの他のユーザーに対してサービス拒否攻撃を仕掛ける方法を開発しました。これにより、悪用のための悪意のあるリクエストを作成し、クラウド内でコンピュータシステムをエミュレートするために使用される仮想マシンを戦略的に作成する方法を悪用できる脆弱性が生じました。適切な位置に仮想マシンを配置することで、チームはクラウドの他のユーザーに対して「騒々しい隣人」攻撃を行うことができました。この攻撃では、1つのクライアントの活動が別のクライアントの性能に悪影響を及ぼすものです。

仮想マシンの配置に関して慎重な作業を行うことで、チームは実際のMicrosoftの顧客に影響を与えるリスクを避けるため、オフラインでシステムのバージョンを構築して攻撃しました。しかし、Shankar Siva Kumarは、これらの初期の調査結果が、AIレッドチームの有用性に関する疑問や疑念を排除したと述べています。「そこで人々の理解が深まりました」と彼は語ります。「人々は考えました:'これが可能だとしたら、ビジネスには良くありません'。」

ただし、テストチームと同様に、MicrosoftのAIレッドチームは現在使用されている攻撃だけでなく、将来の攻撃の傾向にも着目しています。Shankar Siva Kumarは、グループが次にどこに攻撃の傾向が移行する可能性があるかを予測することに焦点を当てていると述べています。そして、これはAIレッドチームの使命の新しい側面に焦点を当てることをしばしば意味します。グループがアプリケーションやソフトウェアシステムの伝統的な脆弱性を見つけると、それを修正するためにMicrosoft内の他のグループと協力することが多いですが、自ら解決策を開発して提案する時間を割く代わりに、この方法を取ることがあります。