Depuis 2018, une équipe dédiée au sein de Microsoft s’attelle à attaquer les systèmes d’apprentissage automatique pour les rendre plus sûrs. Cependant, avec le lancement public de nouvelles technologies d’IA générative, le domaine évolue rapidement.

POUR LA PLUPART DES GENS, l’idée d’utiliser des outils d’intelligence artificielle au quotidien – ou même de jouer avec eux – est devenue populaire seulement ces derniers mois, avec les nouveaux lancements d’outils d’IA générative de plusieurs grandes entreprises technologiques et start-ups, tels que le ChatGPT d’OpenAI et le Bard de Google. Mais en coulisses, la technologie se propage depuis des années, accompagnée de questions sur la manière d’évaluer et de mieux protéger ces nouveaux systèmes d’IA. Le lundi, Microsoft dévoile des détails sur l’équipe au sein de l’entreprise qui, depuis 2018, a pour mission de découvrir comment attaquer les plates-formes d’IA pour en révéler les vulnérabilités.

Au cours des cinq années depuis sa création, l’équipe d’IA rouge de Microsoft est passée d’une sorte d’expérience à une équipe interdisciplinaire complète d’experts en apprentissage automatique, de chercheurs en cybersécurité et même d’ingénieurs sociaux. Le groupe travaille à communiquer ses découvertes au sein de Microsoft et dans toute l’industrie technologique en utilisant le langage traditionnel de la sécurité numérique, afin que les idées soient accessibles et ne nécessitent pas les connaissances spécialisées en IA que de nombreuses personnes et organisations ne possèdent pas encore. Mais en réalité, l’équipe a conclu que la sécurité de l’IA présente des différences conceptuelles importantes par rapport à la défense numérique traditionnelle, ce qui exige des approches différentes de celles de l’équipe d’IA rouge.

« Quand nous avons commencé, la question était : ‘Que ferez-vous fondamentalement de différent ? Pourquoi avons-nous besoin d’une équipe d’IA rouge ?' » dit Ram Shankar Siva Kumar, fondateur de l’équipe d’IA rouge de Microsoft. « Mais si vous regardez l’équipe d’IA rouge simplement comme une équipe rouge traditionnelle, et si vous adoptez seulement la mentalité de la sécurité, cela peut ne pas suffire. Maintenant, nous devons reconnaître l’aspect de l’IA responsable, qui est la responsabilité des défaillances du système d’IA – donc générer du contenu offensant, générer du contenu infondé. C’est le Saint Graal de l’équipe d’IA rouge. Non seulement regarder les défaillances de sécurité, mais aussi les défaillances responsables de l’IA. »

Shankar Siva Kumar dit qu’il a fallu du temps pour mettre en évidence cette distinction et montrer que la mission de l’équipe d’IA rouge aurait vraiment cette double focalisation. Une grande partie du travail initial était liée au lancement d’outils de sécurité plus traditionnels, tels que la Matrice des Menaces Adversaires de Machine Learning de 2020, une collaboration entre Microsoft, le groupe de R&D à but non lucratif MITRE et d’autres chercheurs. Cette année-là, le groupe a également lancé des outils d’automatisation open source pour les tests de sécurité de l’IA, connus sous le nom de Microsoft Counterfit. Et en 2021, l’équipe rouge a publié un cadre supplémentaire pour l’évaluation des risques de sécurité de l’IA.

Cependant, au fil du temps, l’équipe d’IA rouge a réussi à évoluer et à s’étendre à mesure que l’urgence de traiter les défaillances et les problèmes d’apprentissage automatique devient plus évidente.

Dans une opération initiale, l’équipe rouge a évalué un service de déploiement en nuage de Microsoft qui comportait un composant d’apprentissage automatique. L’équipe a mis au point une manière de lancer une attaque par déni de service sur d’autres utilisateurs du service cloud, en exploitant une faille qui leur permettait de créer des demandes malveillantes pour abuser des composants d’apprentissage automatique et créer des machines virtuelles de manière stratégique, les systèmes informatiques émulés utilisés dans le cloud. En plaçant soigneusement des machines virtuelles à des positions clés, l’équipe d’IA rouge pouvait lancer des attaques « voisin bruyant » sur d’autres utilisateurs du cloud, où l’activité d’un client impacte négativement les performances d’un autre client.

L’équipe rouge a finalement construit et attaqué une version hors ligne du système pour prouver que les vulnérabilités existaient, plutôt que de risquer d’impact sur les clients réels de Microsoft. Mais Shankar Siva Kumar dit que ces découvertes au cours des premières années ont éliminé tout doute ou questionnement sur l’utilité d’une équipe d’IA rouge. « C’est là que les choses ont changé pour les gens », dit-il. « Ils ont pensé : ‘Mon Dieu, si les gens peuvent faire ça, ce n’est pas bon pour les affaires’. »

De manière cruciale, la nature dynamique et multifacette des systèmes d’IA signifie que Microsoft ne voit pas seulement les attaquants les mieux équipés cibler les plates-formes d’IA. « Certaines des nouvelles attaques que nous observons sur de grands modèles de langage – vraiment seulement un adolescent avec un langage inapproprié, un utilisateur occasionnel avec un navigateur, et nous ne voulons pas écarter cela », dit Shankar Siva Kumar. « Il y a des APT, mais nous reconnaissons également cette nouvelle catégorie de personnes capables de faire tomber les grands modèles de langage et de les émuler également. »

Comme pour toute équipe de test rouge, cependant, l’équipe d’IA rouge de Microsoft ne recherche pas seulement les attaques actuellement en cours d’utilisation. Shankar Siva Kumar dit que le groupe se concentre sur la prévision des tendances d’attaque à venir. Et cela implique souvent de se concentrer sur le nouvel aspect de responsabilité de l’IA dans la mission de l’équipe d’IA rouge. Lorsque le groupe découvre une vulnérabilité traditionnelle dans une application ou un système logiciel, il collabore souvent avec d’autres groupes au sein de Microsoft pour la corriger plutôt que de passer du temps à développer et à proposer une solution par lui-même.