O modelo de linguagem ToolLLaMA, que se especializa em chamadas de API, pode usar mais de 16.000 APIs e alcança o desempenho do ChatGPT.

Pesquisadores chineses apresentaram o ToolLLM, um framework que eleva os modelos de código aberto à qualidade do ChatGPT no uso de APIs, um aspecto em que esses modelos têm ficado muito atrás das ofertas comerciais.

O ToolLLM é baseado no modelo de código aberto LLaMA. A equipe treinou o modelo da Meta em um conjunto de dados de alta qualidade chamado ToolBench, que foi gerado automaticamente usando o ChatGPT, criando o ToolLLaMA especializado. O ToolBench contém instruções com chamadas de API correspondentes de 49 categorias.

Um exemplo desse tipo de solicitação poderia ser: “Estou organizando uma noite de filmes e preciso de algumas sugestões de filmes. Você pode me encontrar os melhores filmes românticos dos EUA e também um local adequado perto de mim?” Para resolver uma solicitação como essa, o modelo precisa chamar corretamente as APIs relevantes, por exemplo, uma API de busca de filmes e uma API de busca de hotéis.

Árvores de decisão auxiliam na criação de conjuntos de dados

Para construir o conjunto de dados ToolBench, a equipe também utiliza uma técnica chamada Árvore de Decisão de Busca em Profundidade (DFSDT, do inglês Depth-First Search Decision Tree), que permite que modelos de linguagem como o GPT-4 sigam múltiplos caminhos de busca para encontrar a melhor solução para uma solicitação de API. De acordo com os pesquisadores, em experimentos, o DFSDT mostra uma clara vantagem na resolução de tarefas difíceis em comparação com o modelo nativo ou outros métodos, como raciocínio de encadeamento de pensamento.

Para aprimorar ainda mais as capacidades do ToolLLaMA, os pesquisadores também treinaram um recuperador de API neural que recomenda automaticamente APIs relevantes para cada declaração a partir de um conjunto de mais de 16.000 APIs.

ToolLLaMA

Integrar o recuperador com o ToolLLaMA cria um pipeline automatizado para o uso de ferramentas complexas, sem a necessidade de seleção manual de APIs.

ToolLLaMA atinge a qualidade do ChatGPT para chamadas de API

Para avaliar as capacidades do ToolLLaMA, a equipe também está introduzindo um avaliador de modelo automatizado chamado ToolEval. Ele mede dois indicadores-chave – taxa de sucesso (habilidade de concluir com sucesso uma instrução) e taxa de vitória (comparação da qualidade da solução com métodos existentes).

Na comparação do ToolEval, o modelo ToolLLaMA alcança uma taxa de sucesso comparável ao ChatGPT, mesmo que tenha sido treinado com significativamente menos exemplos. O ToolLLaMA também pode lidar com sucesso com APIs previamente desconhecidas lendo sua documentação. Um estudo recentemente publicado pelo Google também mostra que estudar tal documentação pode ser útil. Com conteúdo do the Decoder.