Inteligencia Artificial, Noticias

Honest LLaMA: Un nuevo método podría hacer que ChatGPT sea más honesto

Atualizado em 19/06/2023

Únete a la comunidad

Únete a nuestra lista y recibe contenido exclusivo.

Nuevo método aumenta significativamente la veracidad de grandes modelos de lenguaje y muestra que estos modelos saben más de lo que revelan.

Investigadores de la Universidad de Harvard han desarrollado una técnica llamada Intervención durante la Inferencia (ITI, por sus siglas en inglés) para mejorar la veracidad o factualidad de grandes modelos de lenguaje y crear un «Honest LLaMA», como se le llama en GitHub. El trabajo está motivado por el hecho de que ChatGPT y otros chatbots proporcionan información correcta en algunos contextos, pero tienen fallos en otros, es decir, los hechos están ahí, pero a veces se pierden en la inferencia del modelo.

El equipo utiliza sondas lineales para identificar secciones en la red neuronal que tienen alta precisión en pruebas de factualidad utilizando partes del benchmark TruthfulQA. Una vez que el equipo identifica estas secciones en algunas de las «attention heads» del transformador, el ITI desplaza las activaciones del modelo a lo largo de estas «attention heads» durante la generación de texto.

ITI aumenta significativamente la veracidad de Alpaca

Los investigadores demuestran que, con ITI, la precisión del modelo de código abierto Alpaca en el benchmark TruthfulQA aumenta del 32,5% al 65,1%, con aumentos similares para Vicuna y LLaMA. Sin embargo, un desplazamiento demasiado grande en las activaciones del modelo también puede tener consecuencias negativas: el modelo niega respuestas y, por lo tanto, se vuelve menos útil. Este equilibrio entre factualidad y utilidad se puede ajustar al variar la intensidad de la intervención del ITI.

El equipo utiliza el ITI para el Honest-LLaMA (en azul), que proporciona respuestas más correctas que el LLaMA (en rojo). | Imagen: Li, Patel et al.

El ITI presenta algunas similitudes con el aprendizaje por refuerzo, en el cual el feedback humano también puede aumentar la factualidad. Sin embargo, el RLHF también puede fomentar comportamientos engañosos, ya que el modelo intenta adaptarse a las expectativas humanas. Los investigadores afirman que el ITI no tiene este problema y también es mínimamente invasivo, requiriendo pocos datos de entrenamiento y poder computacional.

Los estudios de los grandes modelos de lenguaje pueden llevar a una mejor comprensión de la «verdad»

El equipo ahora busca entender cómo el método puede generalizarse a otros conjuntos de datos en un entorno de chat del mundo real, y desarrollar una comprensión más profunda del equilibrio entre factualidad y utilidad. Además, en el futuro, podría ser posible aprender los segmentos de la red identificados manualmente de manera auto-supervisada para hacer que el método sea más escalable.

Finalmente, los investigadores destacan que el tema también puede contribuir de manera más amplia: «Desde un punto de vista científico, sería interesante comprender mejor la geometría multidimensional de las representaciones de atributos complejos, como ‘verdad'».

El código y más información están disponibles en GitHub.

André Lug

Soy el fundador de Iglu Online y escritor del blog André Lug. Como experto en gestión de proyectos y marketing digital, comparto contenido sobre productividad, emprendimiento, análisis y resúmenes de libros.

Honest LLaMA: Un nuevo método podría hacer que ChatGPT sea más honesto

Únete a nuestra lista y recibe contenido exclusivo.

ITI aumenta significativamente la veracidad de Alpaca

Los estudios de los grandes modelos de lenguaje pueden llevar a una mejor comprensión de la «verdad»

André Lug

Deja una respuesta Cancelar la respuesta

Inscreva-se em nossa newsletter

¿Por dónde andamos?