¿Los grandes modelos lingüísticos entenderán las palabras como nosotros? Un psicólogo y un científico cognitivo investigan.

Cuando preguntamos a GPT-3, un sistema lingüístico de inteligencia artificial extremadamente potente y popular, si para avivar las brasas de una barbacoa sería más probable que utilizara un mapa de papel o una piedra, prefirió la piedra.

Para alisar tu falda arrugada, ¿tomarías un termo caliente o una horquilla? GPT-3 sugirió la horquilla.

Y si necesitas cubrirte el pelo para trabajar en un restaurante de comida rápida, ¿qué funcionaría mejor, un envoltorio de papel para bocadillos o un pan de hamburguesa? GPT-3 eligió el pan.

¿Por qué hace GPT-3 estas elecciones cuando la mayoría de la gente elige la alternativa? Porque GPT-3 no entiende el lenguaje como los humanos.

Palabras sin cuerpo

Uno de nosotros es un investigador en psicología que hace más de 20 años presentó una serie de escenarios como los anteriores para probar la comprensión de un modelo informático del lenguaje de la época. El modelo no elegía con precisión entre utilizar piedras y mapas para avivar las brasas, mientras que los humanos lo hacían con facilidad.

El otro de nosotros es un estudiante de doctorado en ciencias cognitivas que formó parte de un equipo de investigadores que más recientemente utilizó los mismos escenarios para poner a prueba el GPT-3. Aunque el GPT-3 lo hizo mejor que el modelo anterior, fue significativamente peor que los humanos. Se equivocó completamente en los tres escenarios mencionados.

GPT-3, el motor que impulsó el lanzamiento inicial de ChatGPT, aprende sobre el lenguaje observando, a partir de un billón de casos, qué palabras tienden a seguir a qué otras palabras. Las fuertes regularidades estadísticas de las secuencias lingüísticas permiten a GPT-3 aprender mucho sobre el lenguaje. Y este conocimiento secuencial permite en general a ChatGPT producir frases, ensayos, poemas y código informático razonables.

Aunque GPT-3 es extremadamente bueno aprendiendo las reglas de qué sigue a qué en el lenguaje humano, no tiene ni idea de qué significan esas palabras para un ser humano. ¿Y cómo podría saberlo?

Los seres humanos son entidades biológicas que evolucionaron con cuerpos que necesitan operar en los mundos físico y social para hacer cosas. El lenguaje es una herramienta que ayuda a las personas a hacerlo. GPT-3 es un sistema de software artificial que predice la siguiente palabra. No necesita hacer nada con estas predicciones en el mundo real.

Soy, luego entiendo

El significado de una palabra o frase está estrechamente relacionado con el cuerpo humano: la capacidad de las personas para actuar, percibir y tener emociones. La cognición humana se ve reforzada por la corporeidad. La comprensión de un término como «papel para envolver sándwiches», por ejemplo, incluye el aspecto, el tacto y el peso del envoltorio y, en consecuencia, el uso que le damos: envolver un sándwich. La comprensión de la gente también incluye cómo se puede utilizar para las innumerables otras oportunidades que ofrece, como arrugarlo en una bola para un juego de aros o cubrirse el pelo.

Todos estos usos se deben a la naturaleza del cuerpo humano y a sus necesidades: las personas tienen manos que pueden doblar papel, una cabeza que tiene aproximadamente el mismo tamaño que el envoltorio de un bocadillo y la necesidad de trabajar y, por tanto, de seguir normas como la de cubrirse el pelo. En otras palabras, la gente sabe cómo utilizar las cosas de maneras que no se recogen en las estadísticas del uso de la lengua.

GPT-3, su sucesor GPT-4 y sus primos Bard, Chinchilla y LLaMA no tienen cuerpo, por lo que no pueden determinar por sí mismos qué objetos se pueden doblar, ni las muchas otras propiedades que el psicólogo J.J. Gibson denominó affordances. Con las manos y los brazos de las personas, los mapas de papel avivan una llama y un termo ofrece arrugas.

Sin brazos ni manos, por no hablar de la necesidad de llevar ropa sin arrugas para trabajar, GPT-3 no puede determinar estas affordances. Sólo puede fingirlas si ha encontrado algo similar en el flujo de palabras de Internet.

¿Conseguirá una gran inteligencia artificial modelizar el lenguaje como lo hacen los humanos? En nuestra opinión, no sin tener un cuerpo humano, sentidos, propósitos y formas de vida.

Hacia un sentido del mundo

GPT-4 se ha entrenado tanto con imágenes como con texto, lo que le permite aprender relaciones estadísticas entre palabras y píxeles. Aunque no podemos realizar nuestro análisis original con GPT-4 porque actualmente no produce la probabilidad que asigna a las palabras, cuando le planteamos las tres preguntas, las respondió correctamente. Esto puede deberse a que el modelo está aprendiendo de entradas anteriores o a que ha aumentado el tamaño y la entrada visual.

Sin embargo, puedes seguir construyendo nuevos ejemplos para ponerle en aprietos, pensando en objetos que tengan affordances sorprendentes que el modelo probablemente no haya encontrado. Por ejemplo, la GPT-4 dice que un vaso con el fondo recortado es mejor para contener agua que una bombilla con el fondo recortado.

Un modelo con acceso a imágenes podría ser algo así como un niño que aprende sobre el lenguaje -y el mundo- a través de la televisión: es más fácil que aprender de la radio, pero la comprensión humana requerirá la oportunidad crucial de interactuar con el mundo.

Investigaciones recientes han adoptado este enfoque, entrenando modelos lingüísticos para generar simulaciones físicas, interactuar con entornos físicos e incluso generar planes de acción robóticos. Puede que la comprensión del lenguaje corporeizado esté aún muy lejos, pero este tipo de proyectos interactivos multisensoriales son pasos cruciales en el camino.

ChatGPT es una herramienta fascinante que sin duda se utilizará para buenos -y no tan buenos- fines. Pero no te engañes pensando que entiende lo que dices, y mucho menos que es sensible.

Fuentes: The Conversation, The Decoder