O Meta desenvolveu um método para que modelos de linguagem grandes melhorem iterativamente sua capacidade de seguir instruções, sem depender de anotações humanas caras ou destilação de modelos mais poderosos.

A pesquisa do Meta propõe uma nova técnica chamada “retrotradução de instruções”, que permite que modelos de linguagem grandes, como o LLaMa, sejam ajustados para seguir instruções sem depender de anotações humanas caras ou destilação de modelos mais poderosos, como o GPT-4.

A retrotradução de instruções é o ajuste de instruções por autossupervisão

A retrotradução de instruções é um processo em duas etapas que combina autoaumentação e autocura. Na fase de autoaumentação, o modelo de linguagem é usado para gerar pares candidatos de instrução-resposta a partir do corpus de texto não rotulado. Para cada texto não rotulado, o modelo tenta prever que instrução provocaria aquela resposta. Isso resulta em um grande conjunto de exemplos sintetizados.

A fase de autocura então usa o modelo para pontuar esses pares candidatos e filtrar os de baixa qualidade. O modelo classifica os exemplos e mantém apenas o subconjunto de maior pontuação. Essas etapas de geração de candidatos e curadoria dos melhores dados são repetidas. Cada iteração produz um modelo melhor que, por sua vez, pode melhorar a qualidade dos dados selecionados para a próxima rodada.

Através desse processo de autotreinamento iterativo, o modelo aprende a gerar instruções melhores e também melhora sua capacidade de discriminar exemplos de demonstração de alta qualidade.

O modelo Humpback da Meta supera o Anthropics Claude em benchmarks de seguimento de instruções

Os pesquisadores da Meta demonstram que essa abordagem leva a um forte desempenho no rastreamento de instruções, superando trabalhos anteriores que utilizavam o mesmo modelo LLaMa em escala. O modelo resultante, Humpback 65B, alcança resultados de ponta entre os métodos LLaMa não destilados no benchmark de seguimento de instruções Alpaca, superando o desempenho de modelos como Anthropics Claude, Guanaco, LIMA e Falcon-Instruct.

Em trabalhos futuros, a equipe planeja escalar ainda mais esse método “considerando corpora não rotulados maiores, o que nossa análise sugere que deve resultar em ganhos adicionais”.