Resumo: Pesquisadores desenvolveram uma interface cérebro-computador revolucionária que permite a uma mulher paralisada comunicar-se através de um avatar digital. Esse avanço marca a primeira vez em que a fala ou expressões faciais foram sintetizadas diretamente a partir de sinais cerebrais.
O sistema consegue converter esses sinais em texto a uma impressionante taxa de quase 80 palavras por minuto, superando as tecnologias existentes. O estudo representa um salto significativo em direção à restauração da comunicação completa para pessoas paralisadas.
Dados Importantes:
- A BCI desenvolvida decodifica os sinais cerebrais em fala e expressões faciais sintetizadas, permitindo que pessoas paralisadas se comuniquem de forma mais natural.
- Em vez de reconhecer palavras inteiras, o sistema identifica fonemas, as subunidades da fala, melhorando a velocidade e a precisão.
- A voz do avatar digital foi personalizada para refletir a voz da usuária antes da lesão, e as animações faciais foram controladas por software que interpretou os sinais cerebrais para várias expressões faciais.
Fonte: UCSF
Pesquisadores da Universidade da Califórnia em São Francisco (UCSF) e da Universidade da Califórnia em Berkeley desenvolveram uma interface cérebro-computador (BCI) que permitiu a uma mulher com paralisia grave devido a um acidente vascular cerebral no tronco cerebral falar por meio de um avatar digital.
É a primeira vez que tanto a fala quanto as expressões faciais foram sintetizadas a partir de sinais cerebrais. O sistema também é capaz de decodificar esses sinais em texto a uma taxa de quase 80 palavras por minuto, uma melhoria significativa em relação à tecnologia comercialmente disponível.
Edward Chang, MD, presidente de cirurgia neurológica na UCSF, que trabalha com a tecnologia conhecida como interface cérebro-computador, ou BCI, há mais de uma década, espera que essa mais recente pesquisa, publicada em 23 de agosto de 2023 na revista Nature, leve a um sistema aprovado pela FDA que permita a fala a partir de sinais cerebrais em um futuro próximo.
“Nosso objetivo é restaurar uma maneira completa e incorporada de se comunicar, que é realmente a forma mais natural para nós conversarmos com os outros”, disse Chang, que é membro do Instituto Weill de Neurociência da UCSF e Professor Distinto Jeanne Robertson em Psiquiatria.
“Esses avanços nos aproximam muito mais de tornar isso uma solução real para os pacientes.”
A equipe de Chang já havia demonstrado anteriormente que era possível decodificar sinais cerebrais em texto em um homem que também havia sofrido um acidente vascular cerebral no tronco cerebral muitos anos antes. O estudo atual demonstra algo mais ambicioso: a decodificação de sinais cerebrais na riqueza da fala, juntamente com os movimentos que animam o rosto de uma pessoa durante uma conversa.
Chang implantou um retângulo finíssimo de 253 eletrodos na superfície do cérebro da mulher sobre áreas que sua equipe descobriu serem críticas para a fala. Os eletrodos interceptaram os sinais cerebrais que, se não fosse pelo derrame, teriam chegado aos músculos de sua língua, mandíbula, laringe e também ao seu rosto. Um cabo, conectado a uma porta fixada em sua cabeça, ligava os eletrodos a um banco de computadores.
Por semanas, a participante trabalhou com a equipe para treinar os algoritmos de inteligência artificial do sistema a reconhecer seus sinais cerebrais únicos para a fala. Isso envolveu a repetição de diferentes frases de um vocabulário conversacional de 1.024 palavras repetidamente, até que o computador reconhecesse os padrões de atividade cerebral associados aos sons.
Em vez de treinar a IA para reconhecer palavras inteiras, os pesquisadores criaram um sistema que decodifica palavras a partir de fonemas. Esses são os subconjuntos da fala que formam palavras faladas da mesma forma que letras formam palavras escritas. “Hello”, por exemplo, contém quatro fonemas: “HH”, “AH”, “L” e “OW”.
Usando essa abordagem, o computador só precisava aprender 39 fonemas para decifrar qualquer palavra em inglês. Isso tanto melhorou a precisão do sistema quanto o tornou três vezes mais rápido.
“A precisão, a velocidade e o vocabulário são cruciais”, disse Sean Metzger, que desenvolveu o decodificador de texto com Alex Silva, ambos estudantes de pós-graduação no Programa de Bioengenharia conjunto da UC Berkeley e da UCSF. “É o que dá ao usuário o potencial, com o tempo, de se comunicar quase tão rapidamente quanto nós e ter conversas muito mais naturais e normais.”
Para criar a voz, a equipe desenvolveu um algoritmo para sintetizar a fala, que personalizaram para se parecer com a voz dela antes da lesão, usando uma gravação dela falando em seu casamento.
A equipe animou o avatar com a ajuda de software que simula e anima os movimentos musculares do rosto, desenvolvido pela Speech Graphics, uma empresa que cria animação facial baseada em IA.
Os pesquisadores criaram processos de aprendizado de máquina personalizados que permitiram que o software da empresa se conectasse aos sinais enviados do cérebro da mulher enquanto ela tentava falar e convertesse esses sinais nos movimentos do rosto do avatar, fazendo a mandíbula abrir e fechar, os lábios protruir e se apertar, a língua subir e descer, além dos movimentos faciais de felicidade, tristeza e surpresa.
“Estamos compensando as conexões entre o cérebro e o trato vocal que foram rompidas pelo acidente vascular cerebral”, disse Kaylo Littlejohn, um estudante de pós-graduação que trabalha com Chang e Gopala Anumanchipalli, PhD, professor de engenharia elétrica e ciências da computação na UC Berkeley.
“Quando o sujeito usou esse sistema pela primeira vez para falar e mover o rosto do avatar em conjunto, eu soube que isso seria algo que teria um impacto real.”
Um próximo passo importante para a equipe é criar uma versão sem fio que não exigiria que o usuário estivesse fisicamente conectado à BCI.
“Dar às pessoas a capacidade de controlar livremente seus próprios computadores e telefones com essa tecnologia teria efeitos profundos em sua independência e interações sociais”, disse o co-primeiro autor David Moses, PhD, professor adjunto de cirurgia neurológica.
Autores: Outros autores incluem Ran Wang, Maximilian Dougherty, Jessie Liu, Delyn Tu-Chan e Karunesh Ganguly da UCSF, Peter Wu e Inga Zhuravleva da UC Berkeley, e Michael Berger da Speech Graphics.
Financiamento: Esta pesquisa foi apoiada pelos Institutos Nacionais de Saúde (NINDS 5U01DC018671, T32GM007618), pela Fundação Nacional de Ciências e por doações filantrópicas. Com conteúdo do neurosciencenews.