Desde 2018, uma equipe dedicada dentro da Microsoft tem atacado sistemas de aprendizado de máquina para torná-los mais seguros. No entanto, com o lançamento público de novas ferramentas de IA generativa, o campo está evoluindo rapidamente.
PARA A MAIORIA DAS PESSOAS, a ideia de usar ferramentas de inteligência artificial no dia a dia – ou mesmo brincar com elas – só se tornou popular nos últimos meses, com os novos lançamentos de ferramentas de IA generativa de várias grandes empresas de tecnologia e startups, como o ChatGPT da OpenAI e o Bard da Google. Mas nos bastidores, a tecnologia tem se proliferado há anos, junto com questões sobre como avaliar e proteger melhor esses novos sistemas de IA. Na segunda-feira, a Microsoft está revelando detalhes sobre a equipe dentro da empresa que, desde 2018, tem a tarefa de descobrir como atacar plataformas de IA para revelar suas vulnerabilidades.
Nos cinco anos desde sua criação, a equipe vermelha de IA da Microsoft cresceu de algo que era essencialmente um experimento para se tornar uma equipe interdisciplinar completa de especialistas em aprendizado de máquina, pesquisadores de cibersegurança e até mesmo engenheiros sociais. O grupo trabalha para comunicar suas descobertas dentro da Microsoft e em toda a indústria de tecnologia usando a linguagem tradicional de segurança digital, para que as ideias sejam acessíveis e não exijam conhecimento especializado em IA que muitas pessoas e organizações ainda não possuem. Mas na verdade, a equipe concluiu que a segurança da IA tem diferenças conceituais importantes em relação à defesa digital tradicional, o que exige abordagens diferentes da equipe vermelha de IA.
“Quando começamos, a pergunta era: ‘O que você vai fazer fundamentalmente de diferente? Por que precisamos de uma equipe vermelha de IA?'” diz Ram Shankar Siva Kumar, fundador da equipe vermelha de IA da Microsoft. “Mas se você olhar para a equipe vermelha de IA apenas como uma equipe vermelha tradicional, e se você adotar apenas a mentalidade de segurança, isso pode não ser suficiente. Agora temos que reconhecer o aspecto de IA responsável, que é a responsabilidade pelas falhas do sistema de IA – portanto, gerar conteúdo ofensivo, gerar conteúdo infundado. Isso é o Santo Graal da equipe vermelha de IA. Não apenas olhar para falhas de segurança, mas também para falhas responsáveis da IA.”
Shankar Siva Kumar diz que levou tempo para destacar essa distinção e mostrar que a missão da equipe vermelha de IA realmente teria esse foco duplo. Grande parte do trabalho inicial estava relacionado ao lançamento de ferramentas de segurança mais tradicionais, como a Matriz de Ameaças de Aprendizado de Máquina Adversarial de 2020, uma colaboração entre a Microsoft, o grupo de P&D sem fins lucrativos MITRE e outros pesquisadores. Naquele ano, o grupo também lançou ferramentas de automação de código aberto para testes de segurança de IA, conhecidas como Microsoft Counterfit. E em 2021, a equipe vermelha publicou um framework adicional de avaliação de riscos de segurança de IA.
No entanto, ao longo do tempo, a equipe vermelha de IA conseguiu evoluir e expandir à medida que a urgência de lidar com falhas e problemas de aprendizado de máquina se torna mais evidente.
Em uma operação inicial, a equipe vermelha avaliou um serviço de implantação em nuvem da Microsoft que tinha um componente de aprendizado de máquina. A equipe desenvolveu uma maneira de lançar um ataque de negação de serviço em outros usuários do serviço em nuvem, explorando uma falha que permitia que eles criassem solicitações maliciosas para abusar dos componentes de aprendizado de máquina e criar estrategicamente máquinas virtuais, os sistemas de computador emulados usados na nuvem. Ao colocar cuidadosamente máquinas virtuais em posições-chave, a equipe vermelha poderia lançar ataques “vizinho barulhento” em outros usuários da nuvem, onde a atividade de um cliente impacta negativamente o desempenho de outro cliente.
A equipe vermelha acabou construindo e atacando uma versão offline do sistema para comprovar que as vulnerabilidades existiam, em vez de arriscar impactar os clientes reais da Microsoft. Mas Shankar Siva Kumar diz que essas descobertas nos primeiros anos eliminaram qualquer dúvida ou questionamento sobre a utilidade de uma equipe vermelha de IA. “Foi aí que a ficha caiu para as pessoas”, diz ele. “Elas pensaram: ‘Meu Deus, se as pessoas podem fazer isso, isso não é bom para os negócios'.”
De maneira crucial, a natureza dinâmica e multifacetada dos sistemas de IA significa que a Microsoft não está apenas vendo os atacantes mais bem equipados direcionando as plataformas de IA. “Alguns dos ataques novos que estamos vendo em grandes modelos de linguagem – realmente apenas um adolescente com linguagem imprópria, um usuário casual com um navegador, e não queremos descontar isso”, diz Shankar Siva Kumar. “Existem APTs, mas também reconhecemos essa nova categoria de pessoas que são capazes de derrubar os grandes modelos de linguagem e emulá-los também.”
Como acontece com qualquer equipe de teste vermelho, no entanto, a equipe de IA vermelha da Microsoft não está apenas pesquisando ataques que estão sendo usados atualmente. Shankar Siva Kumar diz que o grupo está focado em antecipar para onde as tendências de ataque podem ir em seguida. E isso muitas vezes envolve um foco na nova peça de responsabilidade da IA da missão da equipe de IA vermelha. Quando o grupo encontra uma vulnerabilidade tradicional em um aplicativo ou sistema de software, muitas vezes colaboram com outros grupos dentro da Microsoft para corrigi-lo em vez de gastar tempo desenvolvendo e propor uma solução por conta própria.