Resumen: Unos investigadores han desarrollado una revolucionaria interfaz cerebro-ordenador que permite a una mujer paralítica comunicarse a través de un avatar digital. Es la primera vez que se sintetizan el habla o las expresiones faciales directamente a partir de señales cerebrales.
El sistema es capaz de convertir estas señales en texto a una impresionante velocidad de casi 80 palabras por minuto, superando a las tecnologías existentes. El estudio representa un salto significativo hacia el restablecimiento de la plena comunicación de las personas paralizadas.
Datos importantes:
- La BCI desarrollada descodifica las señales cerebrales en habla y expresiones faciales sintetizadas, lo que permite a los paralíticos comunicarse con mayor naturalidad.
- En lugar de reconocer palabras enteras, el sistema identifica fonemas, las subunidades del habla, lo que mejora la velocidad y la precisión.
- La voz del avatar digital se personalizó para reflejar la voz del usuario antes de la lesión, y las animaciones faciales se controlaron mediante un software que interpretaba las señales cerebrales para diversas expresiones faciales.
Fuente: UCSF
Investigadores de la Universidad de California en San Francisco (UCSF) y de la Universidad de California en Berkeley han desarrollado una interfaz cerebro-ordenador (BCI) que permitió a una mujer con parálisis grave debida a un derrame cerebral hablar a través de un avatar digital.
Es la primera vez que se sintetizan tanto el habla como las expresiones faciales a partir de señales cerebrales. El sistema también es capaz de descodificar estas señales en texto a una velocidad de casi 80 palabras por minuto, lo que supone una mejora significativa respecto a la tecnología disponible en el mercado.
El doctor Edward Chang, presidente de cirugía neurológica de la UCSF, que lleva más de una década trabajando con la tecnología conocida como interfaz cerebro-ordenador, o BCI (por sus siglas en inglés), espera que esta última investigación, publicada el 23 de agosto de 2023 en la revista Nature, conduzca en un futuro próximo a un sistema aprobado por la FDA que permita hablar a partir de señales cerebrales.
«Nuestro objetivo es restaurar una forma completa y personificada de comunicación, que es realmente la forma más natural que tenemos de hablar con los demás», dijo Chang, que es miembro del Instituto de Neurociencia Weill de la UCSF y Profesor Distinguido Jeanne Robertson en Psiquiatría.
«Estos avances nos acercan mucho más a convertirlo en una solución real para los pacientes»
El equipo de Chang ya había demostrado anteriormente que era posible descodificar las señales cerebrales en texto en un hombre que también había sufrido un ictus del tronco encefálico muchos años antes. El estudio actual demuestra algo más ambicioso: descodificar señales cerebrales en la riqueza del habla, junto con los movimientos que animan el rostro de una persona durante una conversación.
Chang implantó un rectángulo muy fino de 253 electrodos en la superficie del cerebro de la mujer, en zonas que su equipo consideró críticas para el habla. Los electrodos interceptaron señales cerebrales que, de no haber sido por el ictus, habrían llegado a los músculos de su lengua, mandíbula, laringe y también a su cara. Un cable conectado a un puerto de su cabeza conectaba los electrodos a un banco de ordenadores.
Durante semanas, la participante trabajó con el equipo para entrenar los algoritmos de inteligencia artificial del sistema a reconocer sus señales cerebrales únicas para el habla. Para ello, repitió una y otra vez distintas frases de un vocabulario conversacional de 1.024 palabras hasta que el ordenador reconoció los patrones de actividad cerebral asociados a los sonidos.
En lugar de entrenar a la IA para que reconociera palabras enteras, los investigadores crearon un sistema que descodifica palabras a partir de fonemas. Éstos son los subconjuntos del habla que forman palabras habladas del mismo modo que las letras forman palabras escritas. «Hola», por ejemplo, contiene cuatro fonemas: «HH», «AH», «L» y «OW».
Con este método, el ordenador sólo necesitaba aprender 39 fonemas para descifrar cualquier palabra en inglés. Esto mejoró la precisión del sistema y lo hizo tres veces más rápido.
«La precisión, la velocidad y el vocabulario son cruciales», afirma Sean Metzger, que desarrolló el descodificador de texto junto con Alex Silva, ambos estudiantes de posgrado del Programa conjunto de Bioingeniería de la UC Berkeley y la UCSF. «Es lo que da al usuario la posibilidad, con el tiempo, de comunicarse casi tan rápido como nosotros y mantener conversaciones mucho más naturales y normales»
Para crear la voz, el equipo desarrolló un algoritmo para sintetizar el habla, que personalizaron para que se pareciera a su voz antes de la lesión, utilizando una grabación de ella hablando en su boda.
El equipo animó el avatar con ayuda de un software que simula y anima los movimientos musculares de la cara, desarrollado por Speech Graphics, una empresa que crea animaciones faciales basadas en IA.
Los investigadores crearon procesos personalizados de aprendizaje automático que permitieron al software de la empresa conectarse a las señales enviadas desde el cerebro de la mujer mientras intentaba hablar y convertir estas señales en los movimientos de la cara del avatar, haciendo que la mandíbula se abriera y cerrara, los labios sobresalieran y se apretaran, la lengua subiera y bajara, así como los movimientos faciales de felicidad, tristeza y sorpresa.
«Estamos compensando las conexiones entre el cerebro y el tracto vocal interrumpidas por el ictus», explica Kaylo Littlejohn, estudiante de posgrado que trabaja con Chang y el doctor Gopala Anumanchipalli, profesor de ingeniería eléctrica e informática de la UC Berkeley.
«Cuando el sujeto utilizó por primera vez este sistema para hablar y mover la cara del avatar a la vez, supe que era algo que tendría un impacto real»
Un próximo paso importante para el equipo es crear una versión inalámbrica que no requiera que el usuario esté físicamente conectado a la BCI.
«Dar a la gente la capacidad de controlar libremente sus propios ordenadores y teléfonos con esta tecnología tendría profundos efectos en su independencia e interacciones sociales», afirma el coautor David Moses, PhD, profesor adjunto de cirugía neurológica.
Autores: Otros autores son Ran Wang, Maximilian Dougherty, Jessie Liu, Delyn Tu-Chan y Karunesh Ganguly de la UCSF, Peter Wu e Inga Zhuravleva de la UC Berkeley, y Michael Berger de Speech Graphics.
Financiación: Esta investigación ha contado con el apoyo de los Institutos Nacionales de la Salud (NINDS 5U01DC018671, T32GM007618), la Fundación Nacional de la Ciencia y donaciones filantrópicas. Con contenido de neurosciencenews.