Le modèle de langage ToolLLaMA, spécialisé dans les appels d’API, peut utiliser plus de 16 000 APIs et atteint les performances du ChatGPT.

Des chercheurs chinois ont présenté ToolLLM, un cadre qui élève les modèles open source à la qualité du ChatGPT dans l’utilisation d’APIs, un aspect dans lequel ces modèles sont restés bien en deçà des offres commerciales.

ToolLLM est basé sur le modèle open source LLaMA. L’équipe a formé le modèle de Meta sur un ensemble de données de haute qualité appelé ToolBench, qui a été généré automatiquement à l’aide du ChatGPT, créant ainsi le ToolLLaMA spécialisé. ToolBench contient des instructions avec des appels d’API correspondants de 49 catégories.

Un exemple de ce type de demande pourrait être : « Je prépare une soirée cinéma et j’ai besoin de quelques suggestions de films. Pouvez-vous me trouver les meilleurs films romantiques américains et aussi un lieu approprié près de chez moi ? » Pour résoudre une demande comme celle-ci, le modèle doit appeler correctement les APIs pertinentes, par exemple, une API de recherche de films et une API de recherche d’hôtels.

Les arbres de décision aident à créer des ensembles de données

Pour construire l’ensemble de données ToolBench, l’équipe utilise également une technique appelée Arbre de Décision de Recherche en Profondeur (DFSDT, Depth-First Search Decision Tree), qui permet aux modèles de langage tels que le GPT-4 de suivre plusieurs chemins de recherche pour trouver la meilleure solution pour une demande d’API. Selon les chercheurs, dans les expériences, le DFSDT montre un avantage clair dans la résolution de tâches difficiles par rapport au modèle natif ou à d’autres méthodes, telles que le raisonnement par chaînage de pensée.

Pour améliorer davantage les capacités de ToolLLaMA, les chercheurs ont également formé un récupérateur d’API neuronal qui recommande automatiquement les APIs pertinentes pour chaque déclaration à partir d’un ensemble de plus de 16 000 APIs.

ToolLLaMA

L’intégration du récupérateur avec ToolLLaMA crée un pipeline automatisé pour l’utilisation d’outils complexes, sans nécessité de sélection manuelle d’APIs.

ToolLLaMA atteint la qualité du ChatGPT pour les appels d’API

Pour évaluer les capacités de ToolLLaMA, l’équipe introduit également un évaluateur de modèle automatisé appelé ToolEval. Il mesure deux indicateurs clés – le taux de réussite (capacité à accomplir avec succès une instruction) et le taux de victoire (comparaison de la qualité de la solution avec les méthodes existantes).

Dans la comparaison ToolEval, le modèle ToolLLaMA atteint un taux de réussite comparable au ChatGPT, même s’il a été formé avec significativement moins d’exemples. Le ToolLLaMA peut également gérer avec succès les APIs précédemment inconnues en lisant leur documentation. Une étude récemment publiée par Google montre également que l’étude d’une telle documentation peut être utile.

Avec du contenu de the Decoder.