Un estudio examina cómo cambió el comportamiento de ChatGPT entre marzo y junio y descubre algunos cambios significativos, y no para mejor.
Investigadores de la Universidad de Stanford y de la Universidad de California en Berkeley evaluaron el rendimiento de una versión antigua y otra nueva de GPT-3.5 y GPT-4 en cuatro tareas diferentes:
- Resolución de problemas matemáticos
- Respuesta a preguntas complicadas o peligrosas
- generación de código
- pensamiento visual
El estudio muestra que el rendimiento y el comportamiento de las dos versiones difieren, a veces drásticamente. Por ejemplo, GPT-4 (marzo de 2023) es capaz de reconocer números primos con una precisión del 97,6 mientras que GPT-4 (junio de 2023) falla (2,4 e ignora la pregunta de la cadena de razonamiento. Por otro lado, GPT-3.5 (junio de 2023) obtiene resultados significativamente mejores que GPT-3.5 (marzo de 2023) en esta tarea.
GPT-4 produce mucho menos código directamente ejecutable en junio de 2023
También se produce un descenso significativo en la ejecutabilidad directa del código: para GPT-4, el porcentaje de generaciones directamente ejecutables descendió de 52m en marzo a 10m en junio. El descenso para GPT-3.5 también fue significativo (del 22% al 2%). La razón: en marzo, tanto GPT-4 como GPT-3.5 siguieron las instrucciones del usuario («sólo el código») y, por tanto, produjeron generaciones directamente ejecutables.
En junio, sin embargo, añadieron comillas triples adicionales antes y después del código, haciendo que no fuera directamente ejecutable sin intervención manual. La calidad del código generado parece estar a un nivel similar, pero el equipo no realizó una comparación detallada.
El equipo también muestra que GPT-4 responde menos preguntas difíciles en junio y rinde ligeramente mejor en tareas de razonamiento visual, pero comete errores en junio que el modelo de marzo no comete. Los investigadores también observaron una ligera mejora en GPT-3.5.
El equipo recomienda que las empresas implanten análisis de seguimiento para los servicios LLM
¿Es la GPT-4 peor ahora que en marzo? El estudio no ofrece una respuesta clara a esta pregunta, pero parece demostrar que la versión de junio contiene errores que no estaban presentes en la versión anterior.
¿Cuál es el verdadero mensaje?
«Nuestros resultados demuestran que el comportamiento de GPT-3.5 y GPT-4 ha variado significativamente en un periodo de tiempo relativamente corto», afirman los investigadores. «Esto pone de relieve la necesidad de evaluar continuamente el comportamiento de los LLM en aplicaciones de producción»
Así que aún no está claro si estos cambios son errores, como sugirió Peter Welinder, vicepresidente de productos de OpenAI, en un ejemplo similar, o si son la evidencia de una disminución general de la calidad basada en las optimizaciones que OpenAI ha hecho para reducir costes, y eso es un problema, ya que no está claro para los clientes de OpenAI.
Como resultado, el equipo recomienda que los usuarios o empresas que utilicen servicios LLM como parte de su flujo de trabajo implementen un análisis de seguimiento similar para sus aplicaciones basado en la investigación presentada. Para apoyar este proceso y futuras investigaciones sobre la deriva de los modelos lingüísticos, el equipo pone a disposición en GitHub la evaluación y los datos de ChatGPT.
OpenAI reacciona a la investigación «analizándola
Respuesta a la investigación. Logan Kilpatrick, actual responsable de relaciones con los desarrolladores de OpenAI, afirmó que la empresa es consciente de las regresiones notificadas y las está analizando. También ha pedido a OpenAI que ponga a prueba públicamente estos casos de regresión conocidos a medida que se publiquen nuevos modelos.
En otra publicación, dio las gracias a todos por informar de sus experiencias con el rendimiento del modelo GPT-4. Así que la compañía parece estar cambiando la comunicación después de unos pocos casos en los que el equipo de OpenAI dijo que nada había cambiado y Welinder compartió su hipótesis de que «cuando lo usas más intensivamente, empiezas a notar problemas que antes no veías»
El mercado de la IA generativa sigue necesitando un control de calidad
Sin embargo, los problemas a los que se enfrenta OpenAI con GPT-4 no son exclusivos de la empresa. Cualquier empresa que despliegue y actualice regularmente modelos de IA puede mostrarse reacia a comunicar los cambios si no se traducen directamente en mejoras de rendimiento o reducciones de costes para sus clientes y, en algunos casos, la empresa puede incluso no darse cuenta de la degradación antes del despliegue. Un ejemplo: los informes de degradación del rendimiento también han aparecido con el servicio de IA generativa Midjourney. Estos informes muestran la misma estructura de cuentas personales y especulación.
Todo esto demuestra lo nuevo y complicado que es el mercado de los productos de IA generativa. En el futuro, evaluaciones como la que quiere crear Kilpatrick pueden ayudar a pasar de las pruebas anecdóticas a puntos de referencia claros.
Con contenido de The Decoder.