Meta ha desarrollado un método para que los modelos de lenguaje grandes mejoren iterativamente su capacidad para seguir instrucciones, sin depender de anotaciones humanas costosas ni destilación de modelos más poderosos.

La investigación de Meta propone una nueva técnica llamada «retrotraducción de instrucciones», que permite que modelos de lenguaje grandes, como LLaMa, sean ajustados para seguir instrucciones sin depender de anotaciones humanas costosas ni destilación de modelos más poderosos, como GPT-4.

La retrotraducción de instrucciones es el ajuste de instrucciones a través de la auto-supervisión

La retrotraducción de instrucciones es un proceso de dos etapas que combina el auto-aprendizaje y la auto-corrección. En la fase de auto-aprendizaje, el modelo de lenguaje se utiliza para generar pares candidatos de instrucción-respuesta a partir del corpus de texto no etiquetado. Para cada texto no etiquetado, el modelo intenta predecir qué instrucción provocaría esa respuesta. Esto resulta en un gran conjunto de ejemplos sintetizados.

La fase de auto-corrección luego utiliza el modelo para calificar estos pares candidatos y filtrar los de baja calidad. El modelo clasifica los ejemplos y mantiene solo el subconjunto con la puntuación más alta. Estas etapas de generación de candidatos y curación de los mejores datos se repiten. Cada iteración produce un modelo mejor que, a su vez, puede mejorar la calidad de los datos seleccionados para la próxima ronda.

A través de este proceso de autoentrenamiento iterativo, el modelo aprende a generar mejores instrucciones y también mejora su capacidad para discriminar ejemplos de demostración de alta calidad.

El modelo Humpback de Meta supera al Anthropics Claude en pruebas de seguimiento de instrucciones.

Los investigadores de Meta demuestran que este enfoque conduce a un rendimiento sólido en el seguimiento de instrucciones, superando trabajos anteriores que utilizaban el mismo modelo LLaMa a gran escala. El modelo resultante, Humpback 65B, logra resultados destacados entre los métodos LLaMa no destilados en la prueba de seguimiento de instrucciones Alpaca, superando el rendimiento de modelos como Anthropics Claude, Guanaco, LIMA y Falcon-Instruct.

En futuros trabajos, el equipo planea escalar aún más este método «considerando corpora no etiquetados más grandes, lo que nuestro análisis sugiere que debería resultar en ganancias adicionales».