Un nuevo equipo de OpenAI está enfrentando el desafío del alineamiento de la superinteligencia para garantizar que los futuros sistemas de IA, que serán mucho más inteligentes que los humanos, sigan la intención humana.

El equipo, liderado por Ilya Sutskever y Jan Leike, se dedica a encontrar avances científicos y técnicos para asegurar el control seguro de los sistemas de IA, que pueden traer un progreso sin precedentes, pero también pueden representar peligros al potencialmente causar consecuencias indeseadas para la humanidad.

El objetivo ambicioso de este nuevo equipo es crear «el primer investigador de alineamiento automatizado» con capacidades equivalentes a las humanas. El equipo espera «coser juntos iterativamente a la superinteligencia» utilizando «vastas cantidades de procesamiento» y, en solo cuatro años, resolver los desafíos técnicos centrales del alineamiento de la superinteligencia. OpenAI está dedicando actualmente el 20% de su capacidad de procesamiento garantizada a este objetivo.

El alineamiento de la superinteligencia es fundamentalmente un problema de aprendizaje de máquina, y creemos que los expertos en aprendizaje de máquina, aunque no estén trabajando actualmente en alineamiento, serán esenciales para resolverlo.

OpenAI

Recientemente, ha habido críticas crecientes de que las distopías de extinción por una superinteligencia artificial están diseñadas para distraer de los peligros actuales de la IA.

«Un objetivo increíblemente ambicioso»

Para lograr este «objetivo increíblemente ambicioso», el equipo planea desarrollar un método de entrenamiento escalable, validar el modelo resultante y realizar pruebas rigurosas en su proceso de alineamiento.

Tienen la intención de enfocarse en el monitoreo y la generalización escalables, que pueden ayudar a proporcionar una señal de entrenamiento para tareas difíciles de evaluar por los humanos. Además, planean automatizar la búsqueda de comportamientos problemáticos y procesos internos problemáticos para validar el alineamiento del sistema y evaluar todo el proceso utilizando pruebas adversarias.

Aunque reconocen que sus prioridades de investigación pueden cambiar, el equipo pretende aprender más sobre el problema e incorporar potencialmente nuevas áreas de investigación en su enfoque. OpenAI promete «compartir ampliamente los resultados de este esfuerzo» y está buscando investigadores e ingenieros para unirse a la iniciativa.

El trabajo del nuevo equipo complementará los proyectos en curso en OpenAI enfocados en mejorar la seguridad de los modelos actuales y comprender y mitigar otros riesgos relacionados con la IA, como el mal uso, la interrupción económica, la desinformación, el sesgo y la discriminación, así como las adicciones y la dependencia.