En un experimento reciente, los investigadores utilizaron grandes modelos lingüísticos para traducir la actividad cerebral en palabras.
Piensa en las palabras que se arremolinan en tu cabeza: ese chiste malo que sabiamente te guardaste para ti en la cena; tu impresión sin voz de la nueva pareja de tu mejor amigo. Ahora imagine que alguien pudiera oírlo.
El lunes, científicos de la Universidad de Texas en Austin dieron un paso más en esta dirección. En un estudio publicado en la revista Nature Neuroscience, los investigadores describen una IA capaz de traducir los pensamientos privados de los seres humanos analizando resonancias magnéticas, que miden el flujo de sangre a distintas regiones del cerebro.
Los investigadores ya han desarrollado métodos de descodificación del lenguaje para captar los intentos de habla de las personas que han perdido la capacidad de hablar y permitir que los paralíticos escriban pensando sólo en escribir. Pero el nuevo descodificador del lenguaje es uno de los primeros que no depende de implantes. En el estudio, fue capaz de transformar el habla imaginaria de una persona en habla real y, cuando a los sujetos se les proyectaban películas mudas, podía generar descripciones relativamente precisas de lo que ocurría en la pantalla.
«No se trata sólo de un estímulo lingüístico», afirma Alexander Huth, neurocientífico de la universidad que dirigió la investigación. «Estamos llegando a un significado, a algo sobre la idea de lo que está pasando. Y el hecho de que esto sea posible es muy emocionante»
El estudio se centró en tres participantes, que acudieron al laboratorio del Dr. Huth durante 16 horas a lo largo de varios días para escuchar «The Moth» y otros podcasts narrativos. Mientras escuchaban, un escáner de IRMf registraba los niveles de oxigenación sanguínea en partes de sus cerebros. A continuación, los investigadores utilizaron un gran modelo lingüístico para relacionar los patrones de actividad cerebral con las palabras y frases que habían escuchado los participantes.
Los grandes modelos lingüísticos, como el GPT-4 de OpenAI y el Bard de Google, se entrenan con grandes cantidades de texto escrito para predecir la siguiente palabra de una frase u oración. En el proceso, los modelos crean mapas que indican cómo se relacionan las palabras entre sí. Hace unos años, Huth observó que determinadas partes de estos mapas -las llamadas incrustaciones de contexto, que captan las características semánticas, o significados, de las frases- podían utilizarse para predecir cómo se ilumina el cerebro en respuesta al lenguaje.
En un sentido básico, afirma Shinji Nishimoto, neurocientífico de la Universidad de Osaka que no participó en la investigación, «la actividad cerebral es una especie de señal encriptada, y los modelos lingüísticos proporcionan formas de descifrarla».
En su estudio, el Dr. Huth y sus colegas invirtieron el proceso y utilizaron otra IA para traducir las imágenes de resonancia magnética de los participantes en palabras y frases. Los investigadores probaron el descodificador haciendo que los participantes escucharan nuevas grabaciones y comprobando hasta qué punto la traducción coincidía con la transcripción real.
Casi todas las palabras estaban fuera de lugar en la escritura descodificada, pero el significado del pasaje se conservaba con regularidad. Esencialmente, los descodificadores estaban parafraseando.
Original: «Me levanté del colchón de aire y apreté la cara contra el cristal de la ventana del dormitorio esperando ver unos ojos que me devolvían la mirada, pero en su lugar sólo encontré oscuridad»
Actividad cerebral descodificada: «Seguí caminando hacia la ventana y abrí el cristal, me puse de puntillas y miré hacia fuera, no vi nada y volví a mirar hacia arriba, no vi nada».
Durante la resonancia magnética funcional, también se pidió a los participantes que imaginaran en silencio que contaban una historia; luego repitieron la historia en voz alta como referencia. También en este caso, el modelo de descodificación captó la esencia de la versión tácita.
Versión delparticipante: «Buscar un mensaje de mi mujer diciendo que había cambiado de opinión y que iba a volver».
Versióndescodificada: «Verla por alguna razón, pensé que vendría a decirme que me echa de menos»
Por último, los sujetos vieron una breve película muda de animación, de nuevo mientras se sometían a un escáner fMRI. Analizando su actividad cerebral, el modelo lingüístico pudo descifrar una sinopsis aproximada de lo que estaban viendo, quizá su descripción interna de lo que estaban viendo.
El resultado sugiere que el decodificador de IA no sólo captaba palabras, sino también significados. «La percepción del lenguaje es un proceso externo, mientras que la imaginación es un proceso interno activo», afirma Nishimoto. «Y los autores demostraron que el cerebro utiliza representaciones comunes en estos procesos»
Greta Tuckute, neurocientífica del Instituto Tecnológico de Massachusetts que no participó en la investigación, dijo que ésta era «la pregunta de alto nivel».
«¿Podemos descodificar el significado del cerebro?», continuó. «En cierto modo, demuestran que sí, que podemos»
Este método de descodificación del lenguaje tenía limitaciones, señalaron Huth y sus colegas. Por un lado, los escáneres de IRMf son voluminosos y caros. Además, entrenar el modelo es un proceso largo y tedioso y, para ser eficaz, debe hacerse con individuos. Cuando los investigadores intentaron utilizar un descodificador entrenado en una persona para leer la actividad cerebral de otra, falló, lo que sugiere que cada cerebro tiene formas únicas de representar el significado.
Los participantes también fueron capaces de proteger sus monólogos internos descartando el descodificador mientras pensaban en otras cosas. Puede que la IA sea capaz de leer nuestras mentes, pero por ahora tendrá que hacerlo de una en una y con nuestro permiso. Noticia con contenido de The New York Times.