Nuevo método aumenta significativamente la veracidad de grandes modelos de lenguaje y muestra que estos modelos saben más de lo que revelan.
Investigadores de la Universidad de Harvard han desarrollado una técnica llamada Intervención durante la Inferencia (ITI, por sus siglas en inglés) para mejorar la veracidad o factualidad de grandes modelos de lenguaje y crear un «Honest LLaMA», como se le llama en GitHub. El trabajo está motivado por el hecho de que ChatGPT y otros chatbots proporcionan información correcta en algunos contextos, pero tienen fallos en otros, es decir, los hechos están ahí, pero a veces se pierden en la inferencia del modelo.
El equipo utiliza sondas lineales para identificar secciones en la red neuronal que tienen alta precisión en pruebas de factualidad utilizando partes del benchmark TruthfulQA. Una vez que el equipo identifica estas secciones en algunas de las «attention heads» del transformador, el ITI desplaza las activaciones del modelo a lo largo de estas «attention heads» durante la generación de texto.
ITI aumenta significativamente la veracidad de Alpaca
Los investigadores demuestran que, con ITI, la precisión del modelo de código abierto Alpaca en el benchmark TruthfulQA aumenta del 32,5% al 65,1%, con aumentos similares para Vicuna y LLaMA. Sin embargo, un desplazamiento demasiado grande en las activaciones del modelo también puede tener consecuencias negativas: el modelo niega respuestas y, por lo tanto, se vuelve menos útil. Este equilibrio entre factualidad y utilidad se puede ajustar al variar la intensidad de la intervención del ITI.
El equipo utiliza el ITI para el Honest-LLaMA (en azul), que proporciona respuestas más correctas que el LLaMA (en rojo). | Imagen: Li, Patel et al.
El ITI presenta algunas similitudes con el aprendizaje por refuerzo, en el cual el feedback humano también puede aumentar la factualidad. Sin embargo, el RLHF también puede fomentar comportamientos engañosos, ya que el modelo intenta adaptarse a las expectativas humanas. Los investigadores afirman que el ITI no tiene este problema y también es mínimamente invasivo, requiriendo pocos datos de entrenamiento y poder computacional.
Los estudios de los grandes modelos de lenguaje pueden llevar a una mejor comprensión de la «verdad»
El equipo ahora busca entender cómo el método puede generalizarse a otros conjuntos de datos en un entorno de chat del mundo real, y desarrollar una comprensión más profunda del equilibrio entre factualidad y utilidad. Además, en el futuro, podría ser posible aprender los segmentos de la red identificados manualmente de manera auto-supervisada para hacer que el método sea más escalable.
Finalmente, los investigadores destacan que el tema también puede contribuir de manera más amplia: «Desde un punto de vista científico, sería interesante comprender mejor la geometría multidimensional de las representaciones de atributos complejos, como ‘verdad'».
El código y más información están disponibles en GitHub.