Meta a développé une méthode pour que les grands modèles de langage améliorent itérativement leur capacité à suivre les instructions, sans dépendre d’annotations humaines coûteuses ni de la distillation de modèles plus puissants.
La recherche de Meta propose une nouvelle technique appelée « rétrotraduction des instructions », qui permet aux grands modèles de langage tels que LLaMa d’être ajustés pour suivre des instructions sans dépendre d’annotations humaines coûteuses ni de la distillation de modèles plus puissants comme GPT-4.
La rétrotraduction des instructions est l’ajustement des instructions par auto-supervision
La rétrotraduction des instructions est un processus en deux étapes qui combine l’auto-amélioration et l’auto-étalonnage. Dans la phase d’auto-amélioration, le modèle de langage est utilisé pour générer des paires candidates d’instructions et de réponses à partir du corpus de texte non étiqueté. Pour chaque texte non étiqueté, le modèle tente de prédire quelle instruction provoquerait cette réponse. Cela résulte en un grand ensemble d’exemples synthétisés.
La phase d’auto-étalonnage utilise ensuite le modèle pour noter ces paires candidates et filtrer celles de faible qualité. Le modèle classe les exemples et ne conserve que le sous-ensemble ayant le score le plus élevé. Ces étapes de génération de candidats et de sélection des meilleures données sont répétées. Chaque itération produit un modèle meilleur qui, à son tour, peut améliorer la qualité des données sélectionnées pour le prochain tour.
À travers ce processus d’auto-apprentissage itératif, le modèle apprend à générer de meilleures instructions et améliore également sa capacité à discriminer des exemples de démonstration de haute qualité.
Le modèle Humpback de Meta surpasse Anthropics Claude dans les évaluations de suivi d’instructions
Les chercheurs de Meta démontrent que cette approche conduit à des performances solides en matière de suivi des instructions, dépassant les travaux précédents qui utilisaient le même modèle LLaMa à grande échelle. Le modèle résultant, Humpback 65B, obtient des résultats de premier plan parmi les méthodes LLaMa non distillées dans la référence de suivi d’instructions Alpaca, surpassant les performances de modèles tels qu’Anthropics Claude, Guanaco, LIMA et Falcon-Instruct.
Dans les travaux futurs, l’équipe prévoit d’étendre davantage cette méthode « en envisageant des corpus non étiquetés plus importants, ce que notre analyse suggère devrait entraîner des gains supplémentaires ».