Em um experimento recente, os pesquisadores usaram grandes modelos de linguagem para traduzir a atividade cerebral em palavras.
Pense nas palavras girando em sua cabeça: aquela piada de mau gosto que você sabiamente guardou para si mesmo no jantar; sua impressão sem voz do novo parceiro do seu melhor amigo. Agora imagine que alguém poderia ouvir.
Na segunda-feira, cientistas da Universidade do Texas, em Austin, deram mais um passo nessa direção. Em um estudo publicado na revista Nature Neuroscience, os pesquisadores descreveram uma IA que poderia traduzir os pensamentos privados de seres humanos analisando exames de ressonância magnética, que medem o fluxo de sangue para diferentes regiões do cérebro.
Os pesquisadores já desenvolveram métodos de decodificação de linguagem para captar a tentativa de fala de pessoas que perderam a capacidade de falar e permitir que pessoas paralisadas escrevam enquanto apenas pensam em escrever. Mas o novo decodificador de linguagem é um dos primeiros a não depender de implantes. No estudo, foi capaz de transformar o discurso imaginado de uma pessoa em discurso real e, quando os sujeitos foram mostrados filmes mudos, poderia gerar descrições relativamente precisas do que estava acontecendo na tela.
“Isso não é apenas um estímulo de linguagem”, disse Alexander Huth, neurocientista da universidade que ajudou a liderar a pesquisa. “Estamos chegando a um significado, algo sobre a ideia do que está acontecendo. E o fato de que isso é possível é muito emocionante.”
O estudo centrou-se em três participantes, que foram ao laboratório do Dr. Huth por 16 horas ao longo de vários dias para ouvir “The Moth” e outros podcasts narrativos. Enquanto ouviam, um scanner de fMRI registrou os níveis de oxigenação do sangue em partes de seus cérebros. Os pesquisadores então usaram um grande modelo de linguagem para combinar padrões na atividade cerebral com as palavras e frases que os participantes tinham ouvido.
Grandes modelos de linguagem como o GPT-4 da OpenAI e o Bard do Google são treinados em grandes quantidades de escrita para prever a próxima palavra em uma frase ou frase. No processo, os modelos criam mapas indicando como as palavras se relacionam umas com as outras. Há alguns anos, Huth notou que partes específicas desses mapas — as chamadas incorporações de contexto, que capturam as características semânticas, ou significados, das frases — poderiam ser usadas para prever como o cérebro se acende em resposta à linguagem.
Em um sentido básico, disse Shinji Nishimoto, neurocientista da Universidade de Osaka que não esteve envolvido na pesquisa, “a atividade cerebral é um tipo de sinal criptografado, e os modelos de linguagem fornecem maneiras de decifrá-lo”.
Em seu estudo, o Dr. Huth e seus colegas efetivamente reverteram o processo, usando outra IA para traduzir as imagens de ressonância magnética do participante em palavras e frases. Os pesquisadores testaram o decodificador fazendo com que os participantes ouvissem novas gravações e, em seguida, vendo o quão perto a tradução correspondia à transcrição real.
Quase todas as palavras estavam fora de lugar na escrita decodificada, mas o significado da passagem era regularmente preservado. Essencialmente, os decodificadores estavam parafraseando.
Original: “Eu me levantei do colchão de ar e pressionei meu rosto contra o vidro da janela do quarto esperando ver os olhos olhando para mim, mas em vez disso apenas encontrando a escuridão.”
Decodificado da atividade cerebral: “Eu apenas continuei a caminhar até a janela e abri o vidro, fiquei na ponta dos pés e olhei para fora, não vi nada e olhei para cima novamente, não vi nada”.
Durante a ressonância magnética funcional, os participantes também foram solicitados a imaginar silenciosamente contar uma história; depois, eles repetiram a história em voz alta, para referência. Aqui, também, o modelo de decodificação capturou a essência da versão não dita.
Versão do participante: “Procure uma mensagem da minha esposa dizendo que ela mudou de ideia e que estava voltando”.
Versão decodificada: “Para vê-la por algum motivo, pensei que ela viria até mim e diria que sente minha falta.”
Finalmente, os sujeitos assistiram a um breve filme de animação silencioso, novamente enquanto passavam por uma varredura de fMRI. Ao analisar sua atividade cerebral, o modelo de linguagem poderia decodificar uma sinopse aproximada do que eles estavam vendo — talvez sua descrição interna do que eles estavam vendo.
O resultado sugere que o decodificador de IA estava capturando não apenas palavras, mas também significado. “A percepção da linguagem é um processo impulsionado externamente, enquanto a imaginação é um processo interno ativo”, disse Nishimoto. “E os autores mostraram que o cérebro usa representações comuns nesses processos.”
Greta Tuckute, neurocientista do Instituto de Tecnologia de Massachusetts que não esteve envolvida na pesquisa, disse que essa era “a questão de alto nível”.
“Podemos decodificar o significado do cérebro?” ela continuou. “De certa forma, eles mostram que, sim, nós podemos.”
Esse método de decodificação de linguagem tinha limitações, observaram Huth e seus colegas. Por um lado, os scanners de fMRI são volumosos e caros. Além disso, treinar o modelo é um processo longo e tedioso e, para ser eficaz, deve ser feito em indivíduos. Quando os pesquisadores tentaram usar um decodificador treinado em uma pessoa para ler a atividade cerebral de outra, ele falhou, sugerindo que cada cérebro tem maneiras únicas de representar o significado.
Os participantes também foram capazes de proteger seus monólogos internos, descartando o decodificador pensando em outras coisas. A IA pode ser capaz de ler nossas mentes, mas por enquanto terá que lê-las uma de cada vez, e com nossa permissão. Notícia com conteúdo do The New York Times.