Une nouvelle équipe d’OpenAI fait face au défi de l’alignement de la superintelligence pour s’assurer que les futurs systèmes d’IA, qui seront bien plus intelligents que les humains, suivent l’intention humaine.

L’équipe, dirigée conjointement par Ilya Sutskever et Jan Leike, est dédiée à trouver des avancées scientifiques et techniques pour assurer le contrôle sécurisé des systèmes d’IA, qui peuvent apporter un progrès sans précédent, mais peuvent également représenter des dangers en causant potentiellement des conséquences indésirables pour l’humanité.

L’objectif ambitieux de cette nouvelle équipe est de créer le « premier chercheur en alignement automatisé » avec des capacités équivalentes à celles des humains. L’équipe espère « aligner itérativement la superintelligence » en utilisant « d’énormes quantités de traitement » et, en seulement quatre ans, résoudre les défis techniques clés de l’alignement de la superintelligence. OpenAI consacre actuellement 20 % de sa capacité de traitement garantie à cet objectif.

L’alignement de la superintelligence est fondamentalement un problème d’apprentissage machine, et nous croyons que de grands experts en apprentissage machine, même s’ils ne travaillent pas actuellement sur l’alignement, seront essentiels pour le résoudre.

OpenAI

Récemment, il y a eu une critique croissante selon laquelle les dystopies d’extinction par une intelligence artificielle superintelligente sont conçues pour détourner l’attention des dangers actuels de l’IA.

« Un objectif incroyablement ambitieux »

Pour atteindre cet « objectif incroyablement ambitieux », l’équipe prévoit de développer une méthode d’entraînement scalable, de valider le modèle résultant et de réaliser des tests rigoureux sur son processus d’alignement.

Ils prévoient de se concentrer sur la surveillance et la généralisation scalable, qui peuvent aider à fournir un signal d’entraînement pour des tâches difficiles à évaluer par les humains. De plus, ils prévoient d’automatiser la recherche de comportements problématiques et de processus internes problématiques pour valider l’alignement du système, et d’évaluer l’ensemble du processus à l’aide de tests adversaires.

Bien qu’ils reconnaissent que leurs priorités de recherche peuvent changer, l’équipe souhaite en apprendre davantage sur le problème et potentiellement incorporer de nouveaux domaines de recherche dans leur approche. OpenAI promet de « partager largement les résultats de cet effort » et recherche des chercheurs et des ingénieurs pour rejoindre l’initiative.

Le travail de la nouvelle équipe viendra compléter les projets en cours chez OpenAI visant à améliorer la sécurité des modèles actuels, à comprendre et à atténuer d’autres risques liés à l’IA, tels que les abus, les perturbations économiques, la désinformation, les biais et la discrimination, ainsi que les addictions et les dépendances.