Los grandes modelos lingüísticos imitan la charla humana, pero los científicos discrepan sobre su capacidad de razonamiento.

Los mejores sistemas de inteligencia artificial (IA) del mundo pueden aprobar exámenes difíciles, escribir ensayos convincentes y conversar con tanta fluidez que muchos consideran que sus resultados son indistinguibles de los de las personas. ¿Qué no pueden hacer? Resolver sencillos rompecabezas de lógica visual.

En una prueba consistente en una serie de bloques de colores dispuestos en una pantalla, la mayoría de la gente puede identificar los patrones de conexión. Pero GPT-4, la versión más avanzada del sistema de inteligencia artificial que está detrás del chatbot ChatGPT y del motor de búsqueda Bing, sólo acierta un tercio de los puzles en una categoría de patrones y sólo un 3% en otra, según un informe publicado por los investigadores en mayo de este año.

El equipo responsable de los rompecabezas lógicos pretende ofrecer un mejor punto de referencia para poner a prueba las capacidades de los sistemas de IA y ayudar a resolver un dilema sobre los grandes modelos lingüísticos como el GPT-4. Probados de una forma, superan con facilidad tareas que antes se consideraban hitos de la inteligencia artificial. Si se analizan de otro modo, parecen menos impresionantes, ya que muestran grandes puntos ciegos y una incapacidad para razonar sobre conceptos abstractos.

«La gente del campo de la inteligencia artificial tiene dificultades para evaluar estos sistemas», afirma Melanie Mitchell, informática del Instituto Santa Fe de Nuevo México, cuyo equipo creó los puzles lógicos.

En los últimos dos o tres años, los grandes modelos de lenguaje (LLM) han superado con creces a los anteriores sistemas de IA en cuanto a su capacidad para diversas tareas. Funcionan simplemente generando siguientes palabras plausibles cuando se les proporciona un texto de entrada, basándose en las correlaciones estadísticas entre las palabras de miles de millones de frases en línea con las que han sido entrenados. En el caso de los chatbots creados a partir de LLM, hay un elemento adicional: los entrenadores humanos han proporcionado una amplia retroalimentación para afinar la forma en que responden los bots.

Lo sorprendente es la amplitud de capacidades que surgen de este algoritmo similar al de autocompletar, entrenado en vastas bases de datos de lenguaje humano. Otros sistemas de IA pueden superar a los LLM en cualquier tarea, pero deben entrenarse con datos relevantes para un problema concreto y no pueden generalizar de una tarea a otra.

Tomer Ullman, científico cognitivo de la Universidad de Harvard en Cambridge (Massachusetts), afirma que, en términos generales, dos grupos de investigadores tienen opiniones opuestas sobre lo que ocurre bajo la superficie de los LLM. Algunos atribuyen los logros de los algoritmos a indicios de razonamiento o comprensión, afirma. Otros (incluido él mismo e investigadores como Mitchell) son mucho más cautos.

«Hay gente muy inteligente en ambos lados del debate», afirma Ullman. La razón de la división, dice, es la falta de pruebas concluyentes que apoyen uno u otro punto de vista. «No hay un contador Geiger al que podamos apuntar y decir ‘bip bip bip – sí, listo'», añade Ullman.

Pruebas como los rompecabezas lógicos que revelan las diferencias entre las capacidades de las personas y las de los sistemas de IA son un paso en la dirección correcta, afirman los investigadores de ambos bandos. Según Brenden Lake, informático cognitivo de la Universidad de Nueva York, estas pruebas también pueden ayudar a descubrir lo que falta en los sistemas de aprendizaje automático actuales y a desentrañar los ingredientes de la inteligencia humana.

La investigación sobre la mejor forma de probar los LLM y lo que muestran esas pruebas también tiene un punto práctico. Si los LLM se van a aplicar en el mundo real -desde la medicina al derecho-, es importante conocer los límites de sus capacidades, afirma Mitchell. «Tenemos que entender qué pueden hacer y dónde fallan, para saber cómo utilizarlos con seguridad»

¿Ha muerto el test de Turing?

La prueba más famosa de inteligencia artificial ha sido el test de Turing, propuesto por el matemático e informático británico Alan Turing en 1950, cuando los ordenadores aún estaban en pañales. Turing propuso una evaluación que denominó «juego de imitación2». En este escenario, los jueces humanos mantienen conversaciones breves basadas en texto con un ordenador oculto y una persona invisible. ¿Podría el juez detectar con fiabilidad cuál era el ordenador? Se trataba de una pregunta equivalente a «¿Pueden pensar las máquinas?», sugería Turing.

Turing no especificó muchos detalles sobre el escenario, señala Mitchell, así que no hay una rúbrica exacta que seguir. «No pretendía ser una prueba literal que se ejecutara en la máquina, sino más bien un experimento mental», explica François Chollet, ingeniero de software de Google en Seattle (Washington).

teste de turing
Crédito: Geopix/Alamy

Pero la idea de utilizar el lenguaje para detectar si una máquina es capaz de pensar ha perdurado. Durante varias décadas, el empresario y filántropo Hugh Loebner financió una prueba anual de Turing conocida como Premio Loebner. Jueces humanos participaban en diálogos basados en texto con máquinas y personas, intentando adivinar cuál era cuál. Sin embargo, estos encuentros anuales se interrumpieron a partir de 2019 porque Loebner había fallecido y se acabó el dinero para mantenerlos, según el informático Rob Wortham. Él es codirector de la Sociedad del Reino Unido para el Estudio de la Inteligencia Artificial y la Simulación del Comportamiento, que acogió el concurso en nombre de Loebner, desde 2014. Wortham afirma que los LLM tendrían ahora muchas posibilidades de engañar a los humanos en un concurso de este tipo; fue una coincidencia que los eventos terminaran justo antes de que los LLM despegaran de verdad.

Otros investigadores coinciden en que GPT-4 y otros LLM probablemente superarían ahora la concepción popular de la prueba de Turing, ya que pueden engañar a mucha gente, al menos en conversaciones cortas. En mayo, los investigadores de la empresa AI21 Labs de Tel Aviv (Israel) informaron de que más de 1,5 millones de personas habían jugado a su juego en línea basado en el test de Turing. A los jugadores se les asignó chatear durante dos minutos, bien con otro jugador o con un bot impulsado por LLM que los investigadores hicieron comportarse como una persona. Los jugadores identificaron correctamente a los bots sólo 60 veces, lo que, según los investigadores, no es mucho mejor que el azar.

Es el tipo de juego que los investigadores familiarizados con los LLM probablemente podrían ganar. Sin embargo, Chollet afirma que sería fácil detectar un LLM aprovechando las debilidades conocidas de estos sistemas. si me pusieras en una situación en la que me preguntaras: «¿Estoy hablando con un LLM ahora mismo?», sin duda podría decírtelo», afirma Chollet.

La clave, dice, es sacar al LLM de su zona de confort. Sugiere presentarle escenarios que sean variaciones de los que el LLM ha visto muchas veces en sus datos de formación. En muchos casos, el LLM responde produciendo palabras que están más asociadas con la pregunta original en sus datos de entrenamiento, en lugar de dar la respuesta correcta para el nuevo escenario.

Sin embargo, Chollet y otros se muestran escépticos sobre el uso de una prueba centrada en el engaño como objetivo de la informática. «Se trata de intentar engañar al jurado», afirma Chollet. La prueba incentiva a los desarrolladores de chatbot a hacer que la IA realice trucos, en lugar de desarrollar capacidades útiles o interesantes».

Los peligros de los puntos de referencia

En lugar de la prueba de Turing, los investigadores suelen evaluar los sistemas de IA mediante puntos de referencia destinados a evaluar el rendimiento en capacidades específicas, como las habilidades lingüísticas, el razonamiento de sentido común y la capacidad matemática. Cada vez más, los equipos recurren también a exámenes académicos y profesionales diseñados para personas.

Cuando se lanzó GPT-4 en marzo de este año, la empresa que lo creó -OpenAI, de San Francisco (California)- probó su rendimiento en una serie de pruebas diseñadas para máquinas, como comprensión lectora, matemáticas y codificación. Según OpenAI, GPT-4 obtuvo muy buenos resultados en la mayoría de ellas. La empresa también sometió a GPT-4 a una treintena de exámenes, entre ellos: varias pruebas de asignaturas específicas diseñadas para estudiantes de secundaria en EE.UU., conocidas como Advanced Placement; un examen para evaluar los conocimientos clínicos actuales de los médicos en EE.UU.; y una prueba estandarizada utilizada en el proceso de selección para estudios de posgrado en EE.UU., denominada GRE. En el Uniform Bar Admission Examination, que forma parte del proceso de cualificación para abogados en muchos estados de EE.UU., GPT-4 obtuvo una puntuación que lo situaría en el 10 por ciento superior en comparación con los humanos, según OpenAI (véase «Rendimiento del sistema de IA – resultados seleccionados»).

Rendimiento del sistema de IA: resultados seleccionados

PruebaGPT-4GPT3.5IA entrenada específicamente
Examen Uniforme de Acceso a la Abogacía298/400 (~90º percentil*)213/400 (~10º percentil)N/A
Programa de autoevaluación de conocimientos médicos75%53%N/A
Graduate Record Exam: Cuantitativo163/170 (~80º percentil)147/170 (~25º percentil)N/A
HellaSwag: Razonamiento de sentido común (prueba diseñada para máquinas)95.3%85.5%85.6%
DROP: lectura y comprensión (prueba diseñada para máquinas)80.9%64.1%88.4%
GSM-8K: conjunto de datos de 8.000 problemas matemáticos de primaria (para máquinas)92%57.1%87.3%
Fuente: OpenAI/Ref. 4.
*Los valores percentiles corresponden a las pruebas realizadas por humanos que obtuvieron esta puntuación.

«Muchos de estos modelos lingüísticos pueden rendir realmente bien en estos puntos de referencia», afirma Mitchell. «Pero a menudo, la conclusión no es que hayan superado a los humanos en estas capacidades generales, sino que los puntos de referencia son limitados» Uno de los retos que mencionan los investigadores es que los modelos se entrenan con tanto texto que pueden haber visto preguntas similares en sus datos de entrenamiento y, por tanto, en la práctica, limitarse a buscar la respuesta. Este problema se conoce como contaminación.

OpenAI dice que lo ha comprobado buscando secuencias de palabras similares en las preguntas y en los datos de entrenamiento. Cuando probaron los LLM antes y después de eliminar las secuencias similares, hubo poca diferencia en el rendimiento, lo que sugiere que los aciertos no podían atribuirse principalmente a la contaminación. Sin embargo, algunos investigadores han puesto en duda que esta prueba sea lo bastante rigurosa.

Sam Bowman, científico especializado en tecnología lingüística de la Universidad de Nueva York que también trabaja para la empresa de IA Anthropic en San Francisco, advierte del peligro de descartar las habilidades de los GPT-4 por el mero hecho de considerar sus resultados en los exámenes como fruto de la memorización. La contaminación «complica un poco las afirmaciones, pero no creo que cambie mucho el panorama general», afirma.

Los investigadores también señalan que el éxito de los estudiantes de LLM en las preguntas de los exámenes puede ser frágil y no traducirse en la sólida capacidad necesaria para acertar en los ejemplos del mundo real. Es posible alterar ligeramente las preguntas del examen y que fallen, afirma Mitchell. Por ejemplo, tomó una pregunta de un examen para estudiantes de máster en administración de empresas que había pasado ChatGPT y la reformuló ligeramente. Una persona que pudiera responder a esa pregunta sería capaz de responder a la versión reformulada. Pero ChatGPT falló.

Y hay un problema más profundo en la interpretación de lo que significan los puntos de referencia. Para una persona, las puntuaciones altas en todos estos exámenes indicarían de forma fiable inteligencia general, un concepto difuso, pero que, según una definición, se refiere a la capacidad de hacer bien una variedad de tareas y adaptarse a diferentes contextos. Es decir, por lo general, podría considerarse que alguien que obtiene buenos resultados en los exámenes es capaz de desenvolverse bien en otras pruebas cognitivas y ha captado ciertos conceptos abstractos. Pero éste no es en absoluto el caso de los LLM, afirma Mitchell; funcionan de forma muy distinta a las personas. «Extrapolar lo que hacemos con los humanos no siempre funciona con los sistemas de IA», afirma.

Esto puede deberse a que los LLM sólo aprenden del lenguaje; al no estar inmersos en el mundo físico, no experimentan la conexión del lenguaje con los objetos, las propiedades y los sentimientos, como lo hace una persona. «Está claro que no entienden las palabras del mismo modo que las personas», afirma Lake. En su opinión, los LLM demuestran actualmente «que se puede tener un lenguaje muy fluido sin una comprensión genuina».

Por otro lado, los LLM también tienen capacidades que las personas no tienen, como la de conocer las conexiones entre casi todas las palabras que los humanos han escrito. Esto podría permitir a los modelos resolver problemas basándose en peculiaridades del lenguaje u otros indicadores, sin generalizar necesariamente a un rendimiento más amplio, afirma Mitchell.

Nick Ryder, investigador de OpenAI, está de acuerdo en que el rendimiento en un test puede no generalizarse del mismo modo que en el caso de una persona que obtiene la misma puntuación. «No creo que debamos mirar una evaluación de un ser humano y un gran modelo lingüístico y deducir ninguna equivalencia», afirma. Las puntuaciones de OpenAI «no pretenden ser una declaración de capacidad o razonamiento similar al humano. Pretenden ser una declaración de cómo lo hace el modelo en esa tarea»

Los investigadores también han investigado los LLM de forma más exhaustiva que a través de los puntos de referencia convencionales de las máquinas y los exámenes humanos. En marzo, Sébastien Bubeck, de Microsoft Research en Redmond (Washington), y sus colegas causaron sensación con un artículo preliminar titulado «Sparks of Artificial General Intelligence: Early experiments with GPT-4». Utilizando una versión temprana de GPT-4, documentaron una serie de capacidades sorprendentes, muchas de las cuales no estaban directa u obviamente relacionadas con el lenguaje. Uno de los logros más notables fue que consiguió superar las pruebas utilizadas por los psicólogos para evaluar la teoría de la mente, una capacidad humana fundamental que permite a las personas predecir y razonar sobre los estados mentales de los demás. «Dada la amplitud y profundidad de las capacidades de GPT-4, creemos que podría considerarse razonablemente como una versión temprana (aunque aún incompleta) de un sistema de inteligencia general artificial (AGI)», escriben.

Aun así, como aclara Bubeck a Nature, «GPT-4 ciertamente no piensa como una persona, y para cualquier capacidad que demuestre, la consigue a su manera».

Aunque provocativo, el informe no investiga las capacidades de LLM de forma sistemática, dice Mitchell. «Es más bien antropología», afirma. Ullman afirma que para convencerse de que una máquina tiene teoría de la mente, necesitaría ver pruebas de un proceso cognitivo subyacente que coincidiera con la teoría de la mente humana, y no sólo que la máquina pudiera producir las mismas respuestas que una persona.

Para descubrir los puntos fuertes y débiles de las LLM, se necesitan auditorías más amplias y rigurosas, afirman los investigadores de IA. Los puzles de lógica de colores pueden ser un candidato.

Nuevos rompecabezas

En 2019, antes de que los LLM explotaran en la escena, Chollet publicó en línea un nuevo tipo de prueba lógica para sistemas de IA que él creó, llamada Abstraction and Reasoning Corpus (ARC). Los resolutores observan varias demostraciones visuales de una cuadrícula de cuadrados que cambia a otro patrón y demuestran que han comprendido la regla subyacente para el cambio, indicando cómo se transformaría la siguiente cuadrícula. «Se supone que esto pone a prueba tu capacidad de adaptarte a cosas que no has visto antes», dice Chollet, que sostiene que ésta es la esencia de la inteligencia.

Según Lake, ARC refleja una «característica distintiva de la inteligencia humana»: la capacidad de hacer abstracciones a partir de conocimientos cotidianos y aplicarlos a problemas nunca vistos.

Chollet organizó un concurso de ARC para robots en 2020, antes de que los LLM cobraran mucha fuerza. El bot ganador era un sistema de IA entrenado específicamente para resolver tareas similares a las de ARC, pero a diferencia de los LLM, no tenía capacidades generales; sólo acertó 21 de los problemas. En cambio, las personas resuelven correctamente el 80 % de los problemas ARC. Varios equipos de investigadores han utilizado ARC para probar las capacidades de los LLM, pero ninguno se ha acercado al rendimiento humano.

Mitchell y sus colegas han creado un conjunto de nuevos rompecabezas -conocidos como ConceptARC- inspirados en el ARC, pero con dos diferencias clave. Las pruebas de ConceptARC son más sencillas: el equipo de Mitchell quería asegurarse de que la prueba de referencia no dejara de captar los avances en las capacidades de las máquinas, por pequeños que fueran. La otra diferencia es que el equipo eligió conceptos específicos para probarlos y luego creó una serie de rompecabezas para cada concepto que son variaciones sobre un tema.

Por ejemplo, para poner a prueba el concepto de igualdad, un rompecabezas requiere que el solucionador sostenga objetos en el patrón que tengan las mismas formas; otro, que sostenga objetos que estén alineados a lo largo del mismo eje. El objetivo era reducir las posibilidades de que un sistema de IA superara la prueba sin entender los conceptos (véase «Una prueba de pensamiento abstracto que derrota a las máquinas»).

Qué significa un mal rendimiento

Los investigadores introdujeron tareas ConceptARC en GPT-4 y 400 personas se inscribieron en línea. Los humanos obtuvieron una media de 91m en todos los grupos de conceptos (y 97m en uno); el GPT-4 obtuvo 33m en un grupo y menos de 30m en todos los demás.

«Demostramos que las máquinas aún no pueden acercarse al nivel de los humanos», dice Mitchell. «Fue sorprendente que fuera capaz de resolver algunos de los problemas, ya que nunca había sido entrenada para ello», añade.

El equipo también probó los principales robots de concurso de Chollet, que no eran sistemas de habilidades generales como los LLM, sino que estaban diseñados para resolver rompecabezas visuales, como ARC. En general, obtuvieron mejores resultados que GPT-4, pero peores que las personas: el mejor puntuó 77m en una categoría, pero menos del 60% en la mayoría1.

Sin embargo, Bowman afirma que las dificultades del GPT-4 con ConceptARC no demuestran que carezcan de habilidades subyacentes de razonamiento abstracto. Afirma que ConceptARC es desfavorable para GPT-4, entre otras cosas, porque es una prueba visual. «Incluso si se asume que estos modelos son muy buenos en este tipo de razonamiento, no creo que realmente se pueda esperar que este experimento funcione», afirma.

Las limitaciones en la forma de llevar a cabo la prueba probablemente dificultaron el GPT-4. La versión pública de LLM sólo acepta texto como entrada, por lo que los investigadores proporcionaron a GPT-4 matrices de números que representaban las imágenes (un píxel en blanco podía ser 0 y un cuadrado coloreado, un número, por ejemplo) En cambio, los participantes humanos simplemente veían las imágenes. «Estamos comparando un sistema basado únicamente en el lenguaje con los humanos, que tienen un sistema visual muy desarrollado», afirma Mitchell. «Así que puede que no sea una comparación totalmente justa»

OpenAI ha creado una versión «multimodal» de GPT-4 que puede aceptar imágenes como entrada. Mitchell y su equipo esperan que se haga pública para poder probar ConceptARC con ella, aunque no cree que GPT-4 multimodal vaya a mejorar mucho. «No creo que estos sistemas tengan el mismo tipo de conceptos abstractos y capacidades de razonamiento que las personas», afirma.

Sam Acquaviva, científico especializado en cognición computacional del Instituto Tecnológico de Massachusetts (Cambridge), está de acuerdo. «Me sorprendería», afirma. Señala que otro equipo de investigadores ha probado la GPT-4 en una prueba denominada 1D-ARC, en la que los patrones se limitan a una sola fila en lugar de a una cuadrícula8. Esto debería eliminar parte de la injusticia, afirma. Aunque el rendimiento de GPT-4 mejoró, no fue suficiente para sugerir que LLM comprendía de forma fiable la regla subyacente y razonaba sobre ella, afirma Acquaviva.

Argumento a favor del razonamiento

Bowman señala otros experimentos que, en conjunto, le sugieren que los LLM han adquirido al menos una capacidad rudimentaria para razonar sobre conceptos abstractos. En un ejemplo, el informático Kenneth Li, de la Universidad de Harvard, y sus colegas utilizaron una versión digital del juego de mesa Otelo, en el que dos jugadores compiten colocando discos blancos y negros en una cuadrícula de 8×8. Su objetivo era examinar si los LLM se basan en las estadísticas superficiales del lenguaje memorizado para generar texto o si, por el contrario, construyen representaciones internas del mundo, como hacen las personas.

Cuando entrenaron a un LLM proporcionándole listas de jugadas realizadas por los jugadores, se volvió muy bueno a la hora de proporcionar sugerencias precisas para las siguientes jugadas legales. Los investigadores argumentaron que tenían pruebas de que el LLM seguía el estado del tablero y utilizaba esta representación para sugerir jugadas, en lugar de limitarse a crear sugerencias textuales9.

Bowman reconoce que las capacidades de razonamiento de los LLM en general son «irregulares» y más limitadas que en las personas, pero afirma que están ahí y parecen mejorar con el tamaño del modelo, lo que le indica que los futuros LLM serán aún mejores. «Estos sistemas no son ni de lejos tan fiables o generales como quisiéramos, y probablemente hay algunas capacidades específicas de razonamiento abstracto en las que todavía fallan por completo», afirma. «Pero creo que la capacidad básica está ahí»

Una cosa en la que Bowman, Mitchell y otros están de acuerdo es que la mejor manera de poner a prueba a los LLM en cuanto a habilidades de razonamiento abstracto y otros signos de inteligencia sigue siendo un problema abierto y sin resolver. Michael Frank, científico cognitivo de la Universidad de Stanford (California), no espera que surja un único test exhaustivo como sucesor del test de Turing: «No hay un Rubicón, ni una línea única», afirma. En su opinión, los investigadores necesitan muchas pruebas para cuantificar los puntos fuertes y débiles de los distintos sistemas. «Estos agentes son magníficos, pero fallan de muchas maneras, por lo que es absolutamente fundamental probarlos sistemáticamente», afirma.

Wortham da un consejo a cualquiera que intente comprender los sistemas de IA: evite lo que él llama la maldición de la antropomorfización. «Antropomorfizamos todo lo que parece demostrar inteligencia», afirma.

«Es una maldición, porque no podemos pensar en cosas que muestren un comportamiento orientado a objetivos de otra forma que no sea utilizando modelos humanos», afirma. «Y nos imaginamos que la razón por la que lo hace es porque piensa como nosotros, bajo el capó»

Con contenido de Nature.