Os grandes modelos de linguagem entenderão as palavras da maneira que entendemos? Um psicólogo e um cientista cognitivo investigam.

Quando perguntamos ao GPT-3, um sistema de linguagem de inteligência artificial extremamente poderoso e popular, se você estaria mais propenso a usar um mapa de papel ou uma pedra para ventilar a vida em brasas para um churrasco, ele preferiu a pedra.

Para alisar sua saia enrugada, você pegaria uma garrafa térmica quente ou um grampo de cabelo? GPT-3 sugeriu o grampo.

E se você precisar cobrir o cabelo para trabalhar em um restaurante de fast-food, o que funcionaria melhor, uma embalagem de sanduíche de papel ou um pão de hambúrguer? GPT-3 foi para o coque.

Por que o GPT-3 faz essas escolhas quando a maioria das pessoas escolhe a alternativa? Porque o GPT-3 não entende a linguagem da maneira que os humanos entendem.

Palavras sem corpo

Um de nós é um pesquisador de psicologia que há mais de 20 anos apresentou uma série de cenários como os acima para testar a compreensão de um modelo computacional de linguagem daquela época. O modelo não escolheu com precisão entre usar rochas e mapas para ventilar brasas, enquanto os humanos fizeram isso facilmente.

O outro de nós é um estudante de doutorado em ciência cognitiva que fazia parte de uma equipe de pesquisadores que mais recentemente usou os mesmos cenários para testar o GPT-3. Embora o GPT-3 tenha se saído melhor do que o modelo mais antigo, foi significativamente pior do que os humanos. Ele entendeu os três cenários mencionados acima completamente errado.

O GPT-3, o mecanismo que impulsionou o lançamento inicial do ChatGPT, aprende sobre a linguagem observando, a partir de um trilhão de instâncias, quais palavras tendem a seguir quais outras palavras. As fortes regularidades estatísticas nas sequências de linguagem permitem que o GPT-3 aprenda muito sobre a linguagem. E esse conhecimento sequencial geralmente permite que o ChatGPT produza frases, ensaios, poemas e códigos de computador razoáveis.

Embora o GPT-3 seja extremamente bom em aprender as regras do que segue o que na linguagem humana, ele não tem a menor ideia do que qualquer uma dessas palavras significa para um ser humano. E como poderia?

Os seres humanos são entidades biológicas que evoluíram com corpos que precisam operar nos mundos físico e social para fazer as coisas. A linguagem é uma ferramenta que ajuda as pessoas a fazer isso. GPT-3 é um sistema de software artificial que prevê a próxima palavra. Ele não precisa fazer nada com essas previsões no mundo real.

Eu sou, portanto eu entendo

O significado de uma palavra ou frase está intimamente relacionado ao corpo humano: as habilidades das pessoas de agir, perceber e ter emoções. A cognição humana é fortalecida por ser incorporada. A compreensão das pessoas de um termo como “papel de embalagem de sanduíche”, por exemplo, inclui a aparência do invólucro, sua sensação, seu peso e, consequentemente, como podemos usá-lo: para embrulhar um sanduíche. O entendimento das pessoas também inclui como alguém pode usá-lo para inúmeras outras oportunidades que ele oferece, como amassá-lo em uma bola para um jogo de aros ou cobrir o cabelo.

Todos esses usos surgem devido à natureza dos corpos e necessidades humanas: as pessoas têm mãos que podem dobrar papel, uma cabeça de cabelo que é aproximadamente do mesmo tamanho que um invólucro de sanduíche e uma necessidade de ser empregada e, assim, seguir regras como cobrir o cabelo. Ou seja, as pessoas entendem como fazer uso de coisas de maneiras que não são capturadas nas estatísticas de uso da linguagem.

GPT-3, seu sucessor, GPT-4, e seus primos Bard, Chinchilla e LLaMA não têm corpos, e assim eles não podem determinar, por conta própria, quais objetos são dobráveis, ou as muitas outras propriedades que o psicólogo J.J. Gibson chamou de affordances. Dadas as mãos e os braços das pessoas, os mapas de papel abanam uma chama e uma garrafa térmica oferece rugas.

Sem braços e mãos, muito menos a necessidade de usar roupas sem rugas para um trabalho, GPT-3 não pode determinar essas affordances. Só pode falsificá-los se tiver encontrado algo semelhante no fluxo de palavras na internet.

Será que uma IA de modelo de linguagem grande entenderá a linguagem da maneira que os humanos fazem? Em nossa opinião, não sem ter um corpo humano, sentidos, propósitos e modos de vida.

Rumo a um sentido do mundo

GPT-4 foi treinado em imagens, bem como texto, permitindo-lhe aprender relações estatísticas entre palavras e pixels. Embora não possamos realizar nossa análise original no GPT-4 porque atualmente não produz a probabilidade que atribui às palavras, quando perguntamos ao GPT-4 as três perguntas, ele as respondeu corretamente. Isso pode ser devido ao aprendizado do modelo com entradas anteriores ou ao aumento do tamanho e da entrada visual.

No entanto, você pode continuar a construir novos exemplos para tropeçá-lo, pensando em objetos que têm affordances surpreendentes que o modelo provavelmente não tenha encontrado. Por exemplo, GPT-4 diz que um copo com o fundo cortado seria melhor para segurar a água do que uma lâmpada com o fundo cortado.

Um modelo com acesso a imagens pode ser algo como uma criança que aprende sobre a linguagem – e o mundo – a partir da televisão: é mais fácil do que aprender com o rádio, mas a compreensão humana exigirá a oportunidade crucial de interagir com o mundo.

Pesquisas recentes adotaram essa abordagem, treinando modelos de linguagem para gerar simulações físicas, interagir com ambientes físicos e até mesmo gerar planos de ação robóticos. A compreensão da linguagem incorporada ainda pode estar muito distante, mas esses tipos de projetos interativos multissensoriais são etapas cruciais no caminho para lá.

O ChatGPT é uma ferramenta fascinante que, sem dúvida, será usada para fins bons – e não tão bons. Mas não se deixe enganar pensando que ele entende as palavras que vomita, muito menos que é senciente.

Fontes: The Conversation, The Decoder