El modelo de lenguaje ToolLLaMA, especializado en llamadas de API, puede utilizar más de 16.000 APIs y alcanza el rendimiento del ChatGPT.

Investigadores chinos presentaron ToolLLM, un marco de trabajo que lleva a los modelos de código abierto a la calidad del ChatGPT en el uso de APIs, un aspecto en el que estos modelos han quedado rezagados con respecto a las ofertas comerciales.

ToolLLM se basa en el modelo de código abierto LLaMA. El equipo entrenó el modelo de Meta en un conjunto de datos de alta calidad llamado ToolBench, que se generó automáticamente utilizando ChatGPT, creando así ToolLLaMA especializado. ToolBench contiene instrucciones con llamadas correspondientes a APIs de 49 categorías.

Un ejemplo de este tipo de solicitud podría ser: «Estoy organizando una noche de películas y necesito algunas sugerencias de películas. ¿Puedes recomendarme las mejores películas románticas de EE. UU. y también un lugar adecuado cerca de mí?» Para resolver una solicitud como esta, el modelo debe llamar correctamente a las APIs relevantes, por ejemplo, una API de búsqueda de películas y una API de búsqueda de hoteles.

Árboles de decisión ayudan en la creación de conjuntos de datos

Para construir el conjunto de datos ToolBench, el equipo también utiliza una técnica llamada Árbol de Decisión de Búsqueda en Profundidad (DFSDT, por sus siglas en inglés Depth-First Search Decision Tree), que permite que los modelos de lenguaje como GPT-4 sigan múltiples caminos de búsqueda para encontrar la mejor solución para una solicitud de API. Según los investigadores, en experimentos, DFSDT muestra una clara ventaja en la resolución de tareas difíciles en comparación con el modelo nativo u otros métodos, como el razonamiento encadenado.

Para mejorar aún más las capacidades de ToolLLaMA, los investigadores también entrenaron un recuperador de API neuronal que recomienda automáticamente APIs relevantes para cada declaración a partir de un conjunto de más de 16.000 APIs.

Integrar el recuperador con ToolLLaMA crea un pipeline automatizado para el uso de herramientas complejas, sin la necesidad de selección manual de APIs.

ToolLLaMA

La integración del recuperador con ToolLLaMA crea un flujo de trabajo automatizado para la utilización de herramientas complejas, sin necesidad de selección manual de APIs.

ToolLLaMA alcanza la calidad del ChatGPT para llamadas de API

Para evaluar las capacidades de ToolLLaMA, el equipo también está introduciendo un evaluador de modelo automatizado llamado ToolEval. Mide dos indicadores clave: tasa de éxito (habilidad para completar con éxito una instrucción) y tasa de victoria (comparación de la calidad de la solución con los métodos existentes).

En la comparación de ToolEval, el modelo ToolLLaMA alcanza una tasa de éxito comparable a la del ChatGPT, incluso habiendo sido entrenado con significativamente menos ejemplos. ToolLLaMA también puede manejar con éxito APIs previamente desconocidas al leer su documentación. Un estudio recientemente publicado por Google también muestra que estudiar dicha documentación puede ser útil. Con contenido de the Decoder.