Desde 2018, un equipo dedicado dentro de Microsoft ha estado abordando sistemas de aprendizaje automático para hacerlos más seguros. Sin embargo, con el lanzamiento público de nuevas herramientas de IA generativa, el campo está evolucionando rápidamente.

PARA LA MAYORÍA DE LAS PERSONAS, la idea de utilizar herramientas de inteligencia artificial en la vida cotidiana, o incluso jugar con ellas, se ha vuelto popular solo en los últimos meses, con los nuevos lanzamientos de herramientas de IA generativa de varias grandes empresas tecnológicas y startups, como ChatGPT de OpenAI y Bard de Google. Pero en segundo plano, la tecnología ha estado proliferando durante años, junto con cuestiones sobre cómo evaluar y proteger mejor estos nuevos sistemas de IA. El lunes, Microsoft está revelando detalles sobre el equipo dentro de la empresa que, desde 2018, tiene la tarea de descubrir cómo atacar plataformas de IA para revelar sus vulnerabilidades.

En los cinco años desde su creación, el equipo de IA roja de Microsoft ha pasado de ser esencialmente un experimento a convertirse en un equipo interdisciplinario completo de expertos en aprendizaje automático, investigadores de ciberseguridad e incluso ingenieros sociales. El grupo trabaja para comunicar sus hallazgos dentro de Microsoft y en toda la industria tecnológica utilizando el lenguaje tradicional de seguridad digital, para que las ideas sean accesibles y no requieran el conocimiento especializado en IA que muchas personas y organizaciones aún no tienen. Pero en realidad, el equipo concluyó que la seguridad de la IA tiene diferencias conceptuales importantes en comparación con la defensa digital tradicional, lo que requiere enfoques diferentes del equipo de IA roja.

«Cuando comenzamos, la pregunta era: ‘¿Qué harás fundamentalmente de manera diferente? ¿Por qué necesitamos un equipo de IA roja?'» dice Ram Shankar Siva Kumar, fundador del equipo de IA roja de Microsoft. «Pero si miras al equipo de IA roja solo como un equipo rojo tradicional, y si adoptas solo la mentalidad de seguridad, eso puede no ser suficiente. Ahora tenemos que reconocer el aspecto de la IA responsable, que es la responsabilidad de las fallas del sistema de IA, como generar contenido ofensivo, generar contenido infundado. Ese es el Santo Grial del equipo de IA roja. No solo mirar las fallas de seguridad, sino también las fallas responsables de la IA».

Shankar Siva Kumar dice que llevó tiempo resaltar esta distinción y mostrar que la misión del equipo de IA roja realmente tendría este enfoque dual. Gran parte del trabajo inicial estaba relacionado con el lanzamiento de herramientas de seguridad más tradicionales, como la Matriz de Amenazas Adversariales de Aprendizaje Automático de 2020, una colaboración entre Microsoft, el grupo de I+D sin fines de lucro MITRE y otros investigadores. Ese año, el grupo también lanzó herramientas de automatización de código abierto para pruebas de seguridad de IA, conocidas como Microsoft Counterfit. Y en 2021, el equipo rojo publicó un marco adicional para la evaluación de riesgos de seguridad de la IA.

Sin embargo, con el tiempo, el equipo de IA roja pudo evolucionar y expandirse a medida que la urgencia de abordar las fallas y los problemas del aprendizaje automático se volvió más evidente.

En una operación inicial, el equipo de IA roja evaluó un servicio de implementación en la nube de Microsoft que tenía un componente de aprendizaje automático. El equipo desarrolló una forma de lanzar un ataque de denegación de servicio en otros usuarios del servicio en la nube, explotando una falla que les permitía crear solicitudes maliciosas para abusar de los componentes de aprendizaje automático y crear estratégicamente máquinas virtuales, los sistemas de computadoras emuladas utilizados en la nube. Al colocar cuidadosamente máquinas virtuales en posiciones clave, el equipo de IA roja podría lanzar ataques «vecino ruidoso» en otros usuarios de la nube, donde la actividad de un cliente afecta negativamente el rendimiento de otro cliente.

El equipo de IA roja finalmente construyó y atacó una versión fuera de línea del sistema para demostrar que las vulnerabilidades existían, en lugar de arriesgar afectar a los clientes reales de Microsoft. Pero Shankar Siva Kumar dice que estos descubrimientos en los primeros años eliminaron cualquier duda o cuestionamiento sobre la utilidad de un equipo de IA roja. «Fue en ese momento cuando las personas entendieron», dice. «Pensaron: ‘Dios mío, si las personas pueden hacer esto, no es bueno para los negocios'».

De manera crucial, la naturaleza dinámica y multifacética de los sistemas de IA significa que Microsoft no solo ve a los atacantes mejor equipados dirigiéndose a las plataformas de IA. «Algunos de los nuevos ataques que estamos viendo en los grandes modelos de lenguaje, realmente solo un adolescente con lenguaje inapropiado, un usuario casual con un navegador, y no queremos descartarlo», dice Shankar Siva Kumar. «Existen APT, pero también reconocemos esta nueva categoría de personas capaces de derribar los grandes modelos de lenguaje y emularlos también».

Sin embargo, como sucede con cualquier equipo de prueba roja, el equipo de IA roja de Microsoft no solo está investigando ataques que se están utilizando actualmente. Shankar Siva Kumar dice que el grupo se centra en anticipar hacia dónde pueden dirigirse las tendencias de ataque a continuación. Y esto a menudo implica un enfoque en la nueva parte de responsabilidad de la IA en la misión del equipo de IA roja. Cuando el grupo encuentra una vulnerabilidad tradicional en una aplicación o sistema de software, a menudo colaboran con otros grupos dentro de Microsoft para solucionarlo en lugar de perder tiempo desarrollando y proponiendo una solución por sí mismos.