Como “O Pequeno Príncipe” e a IA nos ajudam a compreender melhor o desenvolvimento da linguagem no cérebro
Uma equipe de pesquisadores da Meta, em parceria com várias clínicas francesas, estudou como as representações neurais da linguagem se desenvolvem em crianças e descobriu que os modelos de IA passam por estágios de aprendizagem semelhantes aos do cérebro humano.
Embora as crianças precisem de apenas alguns milhões de palavras para adquirir a linguagem, os mecanismos cerebrais por trás desse processo ainda não são totalmente compreendidos. Um novo estudo conduzido pela Meta AI e pelo Hospital Rothschild, em Paris, lança luz sobre a formação das representações da linguagem no cérebro, revelando paralelos surpreendentes com os grandes modelos de linguagem por IA.
Os pesquisadores analisaram a atividade cerebral de 46 participantes francófonos, com idades entre 2 e 46 anos. Todos os participantes tinham eletrodos implantados para tratamento de epilepsia. Enquanto ouviam um audiolivro de “O Pequeno Príncipe”, a atividade neural foi registrada por mais de 7.400 eletrodos, com o objetivo de rastrear o desenvolvimento do processamento da linguagem no cérebro.
Os resultados indicaram que até mesmo crianças muito pequenas, entre dois e cinco anos, demonstravam respostas claras à fala – como reações a sons específicos, por exemplo “b” ou “k”. Essas reações ocorriam em centros auditivos específicos do cérebro e seguiam um padrão temporal distinto. Entretanto, o processamento de palavras inteiras – considerando seu significado e gramática – foi observado apenas em crianças mais velhas e em regiões cerebrais mais avançadas.
À medida que as crianças crescem, esses padrões de processamento da linguagem se espalham por áreas maiores do cérebro. As respostas às palavras começam mais cedo, têm maior duração e se tornam mais pronunciadas – sinalizando que o processamento linguístico se torna mais complexo com o tempo.
Modelos de IA aprendem a linguagem de forma semelhante ao cérebro humano
Para entender melhor como essas representações se desenvolvem, a equipe comparou os dados neurais com as ativações de dois modelos de linguagem: o wav2vec 2.0, um modelo de IA que aprende características da fala a partir do áudio, e o modelo de linguagem avançado Llama 3.1. Ambos os modelos foram avaliados antes e depois do treinamento.
Após o treinamento, as respostas dos modelos passaram a se assemelhar mais de perto às observadas no cérebro humano. O wav2vec, que aprendeu a partir do áudio bruto, desenvolveu um padrão de processamento gradual – começando com sons simples e, em seguida, passando para significados mais complexos. O Llama 3.1, por sua vez, processava palavras inteiras desde o início, de maneira similar aos cérebros de crianças mais velhas e adultos.
Os pesquisadores identificaram que representações semelhantes às do Llama 3.1 só aparecem nos cérebros de crianças mais velhas e adultos – nos bebês de 2 a 5 anos, as ativações lembram o estado inicial, ainda não treinado, de um modelo de IA. Apenas com uma exposição maior à linguagem é que surgem ativações comparáveis às dos LLMs.
De acordo com os pesquisadores, o desenvolvimento do processamento da linguagem no cérebro e a maturação dos modelos de linguagem por meio do treinamento apresentam semelhanças estruturais. Tanto os sistemas biológicos quanto os artificiais parecem construir uma hierarquia comparável de representações da linguagem, embora os LLMs necessitem de uma quantidade de dados significativamente maior.
A Biologia ainda é mais eficiente – mas a IA nos ajuda a entendê-la
Apesar dessas semelhanças, existem diferenças marcantes. Crianças adquirem a linguagem com apenas alguns milhões de palavras, enquanto os LLMs precisam de bilhões de palavras para o mesmo processo. Muitas habilidades cognitivas – como a compreensão de dependências sintáticas ou nuances semânticas – ainda estão além do alcance da IA.
Mesmo assim, os achados sugerem que os modelos de IA podem auxiliar pesquisadores a estudar de forma mais aprofundada o desenvolvimento da linguagem humana. Eles oferecem uma nova maneira de rastrear o processamento linguístico em diferentes faixas etárias e de comparar o funcionamento interno de sistemas biológicos e artificiais.
Uma limitação importante do estudo foi a impossibilidade de incluir crianças com menos de dois anos, por questões médicas, mesmo considerando que esses primeiros meses são cruciais para o desenvolvimento da linguagem.