OpenAI présente un modèle d’IA de pointe (SOTA) pour résoudre certains problèmes mathématiques. Le processus sous-jacent pourrait conduire à de meilleurs modèles de langage en général.

Dans l’article intitulé « Let’s Verify Step by Step », l’équipe de l’OpenAI a entraîné plusieurs modèles basés sur GPT-4 à résoudre des problèmes sur l’ensemble de données MATH. L’objectif était de comparer deux variantes de processus de retour d’information pour la formation de modèles de récompense.

Plus précisément, l’équipe a comparé la « supervision des résultats », dans laquelle le modèle d’IA reçoit un retour d’information sur le résultat final d’une tâche, à la « supervision du processus », dans laquelle le modèle reçoit un retour d’information à chaque étape spécifique du raisonnement. Dans la pratique, ce dernier processus nécessite un retour d’information humain et est donc coûteux pour les grands modèles et les tâches diverses – le travail actuel est donc une enquête qui pourrait déterminer l’orientation future de l’OpenAI.

Supervision du processus : comment éviter les taxes d’alignement

Pour les tâches mathématiques, l’OpenAI a démontré que la supervision du processus produit des résultats nettement meilleurs pour les petits et les grands modèles, ce qui signifie que les modèles sont plus souvent corrects et présentent un processus de pensée plus proche de l’humain, selon l’équipe. Les hallucinations ou les erreurs logiques, qui sont courantes même dans les meilleurs modèles actuels, peuvent être réduites.

A supervisão de processo produz um modelo mais poderoso para a matemática. | Imagem: OpenAI
La supervision du processus produit un modèle plus puissant pour les mathématiques | Image : OpenAI

En outre, selon l’OpenAI, récompenser les étapes intermédiaires correctes permet d’éviter le phénomène connu sous le nom de « taxe d’alignement », dans lequel les performances d’un modèle sont réduites en raison de son adhésion aux valeurs et aux attentes humaines. Dans le cas des tâches mathématiques testées, l’entreprise a même constaté une diminution de la taxe d’alignement.

« Nous ne savons pas dans quelle mesure ces résultats se généraliseront au-delà du domaine des mathématiques, et nous considérons qu’il est important que les travaux futurs explorent l’impact de la supervision des processus dans d’autres domaines. Si ces résultats se généralisent, nous pourrions découvrir que la supervision de processus nous offre le meilleur des deux mondes – une méthode qui est à la fois plus efficace et plus alignée que la supervision de résultats »

OpenAI

L’OpenAI met à disposition un ensemble de données étiquetées par l’homme

L’applicabilité de la supervision de processus dans des domaines autres que les mathématiques doit être étudiée plus avant. Pour faciliter ce processus, OpenAI a publié l’ensemble de données PRM800K utilisé dans son propre modèle, qui contient 800 000 étiquettes humaines pour toutes les étapes intermédiaires de l’ensemble de données MATH.

John Schulman, coauteur et cofondateur de l’OpenAI, a récemment donné une conférence sur le rôle central des modèles de récompense dans la formation des comportements souhaités dans les grands modèles de langage.