Grandes modelos de linguagem imitam o bate-papo humano, mas os cientistas discordam de sua capacidade de raciocinar.

Os melhores sistemas de inteligência artificial (IA) do mundo podem passar por exames difíceis, escrever ensaios convincentemente humanos e conversar de forma tão fluente que muitos acham sua produção indistinguível das pessoas. O que eles não conseguem fazer? Resolver quebra-cabeças simples de lógica visual.

Em um teste composto por uma série de blocos coloridos dispostos em uma tela, a maioria das pessoas consegue identificar os padrões de conexão. Mas o GPT-4, a versão mais avançada do sistema de IA por trás do chatbot ChatGPT e do mecanismo de busca Bing, acerta apenas cerca de um terço dos quebra-cabeças em uma categoria de padrões e apenas 3% corretamente em outra, de acordo com um relatório divulgado por pesquisadores em maio deste ano.

A equipe por trás dos quebra-cabeças de lógica tem como objetivo fornecer um melhor referencial para testar as capacidades dos sistemas de IA e ajudar a abordar um dilema sobre os grandes modelos de linguagem, como o GPT-4. Testados de uma maneira, eles passam facilmente por tarefas que antes eram consideradas marcos da inteligência artificial. Testados de outra forma, eles parecem menos impressionantes, exibindo grandes pontos cegos e uma incapacidade de raciocinar sobre conceitos abstratos.

“As pessoas no campo da IA estão lutando para avaliar esses sistemas”, diz Melanie Mitchell, uma cientista da computação no Instituto Santa Fe no Novo México, cuja equipe criou os quebra-cabeças de lógica.

Nos últimos dois a três anos, os grandes modelos de linguagem (LLMs) superaram amplamente os sistemas de IA anteriores em termos de sua habilidade em várias tarefas. Eles funcionam simplesmente gerando palavras plausíveis seguintes quando são fornecidos com um texto de entrada, com base nas correlações estatísticas entre palavras em bilhões de frases online em que são treinados. Para chatbots construídos com base em LLMs, há um elemento extra: treinadores humanos forneceram extenso feedback para ajustar como os bots respondem.

O que é impressionante é a amplitude de capacidades que emerge desse algoritmo parecido com autocompletar, treinado em vastos bancos de dados de linguagem humana. Outros sistemas de IA podem superar os LLMs em qualquer tarefa específica, mas eles precisam ser treinados em dados relevantes para um problema específico e não podem generalizar de uma tarefa para outra.

De modo geral, dois grupos de pesquisadores têm opiniões opostas sobre o que está acontecendo sob a superfície dos LLMs, diz Tomer Ullman, um cientista cognitivo da Universidade de Harvard em Cambridge, Massachusetts. Alguns atribuem as conquistas dos algoritmos a indícios de raciocínio ou compreensão, diz ele. Outros (incluindo ele próprio e pesquisadores como Mitchell) são muito mais cautelosos.

“Há pessoas muito inteligentes em ambos os lados desse debate”, diz Ullman. A razão para a divisão, segundo ele, é a falta de evidências conclusivas que apoiem qualquer uma das opiniões. “Não há um contador Geiger que possamos apontar para algo e dizer ‘beep beep beep – sim, inteligente'”, acrescenta Ullman.

Testes como os quebra-cabeças lógicos que revelam as diferenças entre as habilidades das pessoas e dos sistemas de IA são um passo na direção certa, dizem os pesquisadores de ambos os lados da discussão. Essas referências também podem ajudar a mostrar o que está faltando nos sistemas de aprendizado de máquina atualmente e desvendar os ingredientes da inteligência humana, diz Brenden Lake, um cientista computacional cognitivo da Universidade de Nova York.

A pesquisa sobre a melhor forma de testar os LLMs e o que esses testes mostram também tem um ponto prático. Se os LLMs forem aplicados em domínios do mundo real – desde a medicina até a lei – é importante entender os limites de suas capacidades, diz Mitchell. “Precisamos entender o que eles podem fazer e onde falham, para que possamos saber como usá-los de maneira segura.”

O teste de Turing está morto?

O teste mais famoso de inteligência artificial tem sido o teste de Turing, proposto pelo matemático britânico e luminar da computação Alan Turing em 1950, quando os computadores ainda estavam em seus primórdios. Turing sugeriu uma avaliação que ele chamou de “jogo de imitação2”. Nesse cenário, juízes humanos conduzem conversas curtas baseadas em texto com um computador oculto e uma pessoa invisível. O juiz poderia detectar com confiabilidade qual era o computador? Essa era uma questão equivalente a “As máquinas podem pensar?”, sugeriu Turing.

Turing não especificou muitos detalhes sobre o cenário, observa Mitchell, então não há uma rubrica exata a seguir. “Não se destinava a ser um teste literal que você realmente executaria na máquina – era mais como um experimento mental”, diz François Chollet, um engenheiro de software do Google sediado em Seattle, Washington.

teste de turing
Credit: Geopix/Alamy

Mas a ideia de usar a linguagem para detectar se uma máquina é capaz de pensar perdurou. Por várias décadas, o empresário e filantropo Hugh Loebner financiou um evento anual de teste de Turing conhecido como Prêmio Loebner. Juízes humanos participavam de diálogos baseados em texto com máquinas e pessoas, tentando adivinhar qual era qual. No entanto, esses encontros anuais foram interrompidos após 2019, porque Loebner havia falecido e o dinheiro para mantê-los acabou, segundo o cientista da computação Rob Wortham. Ele é co-diretor da Sociedade do Reino Unido para o Estudo da Inteligência Artificial e Simulação de Comportamento, que sediou a competição em nome de Loebner, a partir de 2014. Wortham afirma que os LLMs agora teriam uma boa chance de enganar os humanos em tal concurso; foi uma coincidência que os eventos terminaram pouco antes dos LLMs realmente decolarem.

Outros pesquisadores concordam que o GPT-4 e outros LLMs provavelmente agora passariam na concepção popular do teste de Turing, pois podem enganar muitas pessoas, pelo menos em conversas curtas. Em maio, pesquisadores da empresa AI21 Labs em Tel Aviv, Israel, relataram que mais de 1,5 milhão de pessoas jogaram seu jogo online baseado no teste de Turing. Os jogadores foram designados para conversar por dois minutos, seja com outro jogador ou com um bot alimentado por LLM que os pesquisadores fizeram se comportar como uma pessoa. Os jogadores identificaram corretamente os bots apenas 60% do tempo, o que os pesquisadores observam não ser muito melhor do que o acaso.

É o tipo de jogo que pesquisadores familiarizados com LLMs provavelmente ainda poderiam vencer. No entanto, Chollet diz que seria fácil detectar um LLM, aproveitando-se das fraquezas conhecidas desses sistemas. “Se você me colocasse em uma situação em que me perguntasse, ‘Estou conversando com um LLM agora?', eu definitivamente seria capaz de te dizer”, diz Chollet.

A chave, segundo ele, é tirar o LLM de sua zona de conforto. Ele sugere apresentar-lhe cenários que são variações daqueles que o LLM já viu muitas vezes em seus dados de treinamento. Em muitos casos, o LLM responde produzindo palavras que estão mais associadas à pergunta original em seus dados de treinamento, em vez de dar a resposta correta para o novo cenário.

No entanto, Chollet e outros são céticos quanto ao uso de um teste centrado na decepção como objetivo para a ciência da computação. “É tudo sobre tentar enganar o júri”, diz Chollet. O teste incentiva os desenvolvedores de chatbots a fazerem com que a IA execute truques, em vez de desenvolver capacidades úteis ou interessantes.

Os perigos dos benchmarks

Em vez do teste de Turing, os pesquisadores geralmente avaliam os sistemas de IA usando benchmarks destinados a avaliar o desempenho em capacidades específicas, como habilidades de linguagem, raciocínio de senso comum e capacidade matemática. Cada vez mais, as equipes também estão recorrendo a exames acadêmicos e profissionais projetados para pessoas.

Quando o GPT-4 foi lançado em março deste ano, a empresa por trás dele – OpenAI em São Francisco, Califórnia – testou seu desempenho em uma série de benchmarks projetados para máquinas, incluindo compreensão de leitura, matemática e codificação. GPT-4 se saiu muito bem na maioria deles, conforme relatado pela OpenAI. A empresa também submeteu o GPT-4 a cerca de 30 exames, incluindo: vários testes específicos de disciplinas projetados para estudantes do ensino médio nos EUA, conhecidos como Advanced Placement; um exame para avaliar o conhecimento clínico atual dos médicos nos EUA; e um teste padrão usado no processo de seleção para estudos de pós-graduação nos EUA, chamado de GRE. No Exame Uniforme de Admissão à Ordem dos Advogados, que faz parte do processo de qualificação para advogados em muitos estados dos EUA, o GPT-4 obteve uma pontuação que o colocaria entre os 10% melhores em relação aos humanos, segundo a OpenAI (veja “Desempenho do sistema de IA – resultados selecionados”).

AI system performance — selected results

TesteGPT-4GPT3.5IA especificamente treinada
Exame Uniforme de Admissão à Ordem dos Advogados298/400 (~90th percentile*)213/400 (~10th percentile)N/A
Programa de Autoavaliação de Conhecimento Médico75%53%N/A
Graduate Record Exam: Quantitativo163/170 (~80th percentile)147/170 (~25th percentile)N/A
HellaSwag: raciocínio de senso comum (teste projetado para máquinas)95.3%85.5%85.6%
DROP: leitura e compreensão (referência para máquinas)80.9%64.1%88.4%
GSM-8K: conjunto de dados de 8.000 problemas matemáticos em nível de ensino fundamental (para máquinas)92%57.1%87.3%
Fonte: OpenAI/Ref. 4.
*Os valores percentis são para os testes realizados por humanos que alcançaram essa pontuação.

“Muitos desses modelos de linguagem podem ter um desempenho realmente bom nesses benchmarks”, diz Mitchell. “Mas frequentemente, a conclusão não é que eles superaram os humanos nessas capacidades gerais, mas sim que os benchmarks são limitados.” Um desafio mencionado pelos pesquisadores é que os modelos são treinados em tanto texto que eles podem ter visto perguntas semelhantes em seus dados de treinamento e, assim, na prática, estarem apenas procurando a resposta. Esse problema é conhecido como contaminação.

A OpenAI afirma que verificou isso procurando por sequências de palavras semelhantes nas perguntas e nos dados de treinamento. Quando testaram os LLMs antes e depois de remover as sequências semelhantes, houve pouca diferença no desempenho, sugerindo que os sucessos não poderiam ser atribuídos principalmente à contaminação. No entanto, alguns pesquisadores questionaram se esse teste é rigoroso o suficiente.

Sam Bowman, cientista de tecnologia da linguagem na Universidade de Nova York, que também trabalha para a empresa de IA Anthropic em São Francisco, adverte contra desconsiderar as habilidades do GPT-4, simplesmente descartando suas pontuações nos exames como resultado de memorização. A contaminação “complica um pouco as afirmações, mas não acho que isso realmente mude muito o quadro geral”, diz ele.

Os pesquisadores também observam que o sucesso dos LLMs em questões de exame pode ser frágil e pode não se traduzir na capacidade robusta necessária para acertar exemplos no mundo real. É possível alterar ligeiramente as perguntas do exame e fazê-los falhar, diz Mitchell. Por exemplo, ela pegou uma pergunta de um exame dado a estudantes de mestrado em administração de empresas que o ChatGPT havia passado e a reformulou ligeiramente. Uma pessoa que pudesse responder a essa pergunta seria capaz de responder à versão reformulada. Mas o ChatGPT falhou.

E há um problema mais profundo na interpretação do que os benchmarks significam. Para uma pessoa, pontuações altas em todos esses exames indicariam confiavelmente inteligência geral – um conceito difuso, mas, de acordo com uma definição, se refere à capacidade de se sair bem em uma variedade de tarefas e se adaptar a diferentes contextos. Ou seja, alguém que se saísse bem nos exames geralmente pode ser considerado capaz de se sair bem em outros testes cognitivos e de ter compreendido certos conceitos abstratos. Mas isso não é de forma alguma o caso dos LLMs, diz Mitchell; eles funcionam de maneira muito diferente das pessoas. “Extrapolando da maneira que extrapolamos para os humanos nem sempre funcionará para sistemas de IA”, diz ela.

Isso pode ser porque os LLMs aprendem apenas a partir da linguagem; sem estarem incorporados ao mundo físico, eles não experimentam a conexão da linguagem com objetos, propriedades e sentimentos, como uma pessoa faz. “É claro que eles não estão entendendo as palavras da mesma forma que as pessoas”, diz Lake. Em sua opinião, os LLMs atualmente demonstram “que você pode ter uma linguagem muito fluente sem um entendimento genuíno”.

Por outro lado, os LLMs também têm capacidades que as pessoas não têm – como a capacidade de conhecer as conexões entre quase todas as palavras que os humanos já escreveram. Isso pode permitir que os modelos resolvam problemas confiando em peculiaridades da linguagem ou outros indicadores, sem necessariamente generalizar para um desempenho mais amplo, diz Mitchell.

Nick Ryder, um pesquisador da OpenAI, concorda que o desempenho em um teste pode não se generalizar da mesma forma que acontece para uma pessoa que obtém a mesma pontuação. “Não acredito que devemos olhar para uma avaliação de um ser humano e de um grande modelo de linguagem e derivar qualquer equivalência”, diz ele. As pontuações da OpenAI “não se destinam a ser uma declaração de capacidade semelhante à humana ou raciocínio semelhante ao humano. Destina-se a ser uma declaração de como o modelo se sai nessa tarefa.”

Os pesquisadores também investigaram os LLMs de forma mais abrangente do que através de benchmarks convencionais de máquinas e exames humanos. Em março, Sébastien Bubeck, da Microsoft Research em Redmond, Washington, e seus colegas causaram sensação com um artigo preliminar intitulado ‘Sparks of Artificial General Intelligence: Early experiments with GPT-4'. Usando uma versão inicial do GPT-4, eles documentaram uma variedade de habilidades surpreendentes – muitas das quais não estavam diretamente ou obviamente relacionadas à linguagem. Um feito notável foi que ele conseguiu passar em testes usados por psicólogos para avaliar a teoria da mente, uma habilidade humana fundamental que permite que as pessoas prevejam e raciocinem sobre os estados mentais dos outros. “Dada a amplitude e profundidade das capacidades do GPT-4, acreditamos que ele poderia ser razoavelmente visto como uma versão inicial (embora ainda incompleta) de um sistema de inteligência artificial geral (AGI)”, escreveram.

Ainda assim, como Bubeck esclarece para a Nature, “o GPT-4 certamente não pensa como uma pessoa e, para qualquer capacidade que ele demonstre, ele a alcança à sua própria maneira”.

Embora provocativo, o relatório não investiga as capacidades do LLM de forma sistemática, diz Mitchell. “É mais como antropologia”, diz ela. Ullman diz que para ser convencido de que uma máquina tem teoria da mente, ele precisaria ver evidências de um processo cognitivo subjacente correspondendo à teoria da mente humana, e não apenas que a máquina possa produzir as mesmas respostas que uma pessoa.

Para descobrir os pontos fortes e fracos dos LLMs, são necessárias auditorias mais extensas e rigorosas, dizem os pesquisadores de IA. Os quebra-cabeças coloridos de lógica podem ser um candidato.

Novos quebra-cabeças

Em 2019, antes dos LLMs explodirem na cena, Chollet publicou online um novo tipo de teste de lógica para sistemas de IA que ele criou, chamado de Corpus de Abstração e Raciocínio (ARC). Os solucionadores olham várias demonstrações visuais de uma grade de quadrados mudando para outro padrão e mostram que compreenderam a regra subjacente para a mudança, indicando como a próxima grade se transformaria. “Isso é suposto testar sua capacidade de se adaptar a coisas que você não viu antes”, diz Chollet, que argumenta que essa é a essência da inteligência.

ARC captura uma “marca registrada da inteligência humana”, diz Lake: a capacidade de fazer abstrações a partir do conhecimento cotidiano e aplicá-las a problemas anteriormente não vistos.

Chollet organizou uma competição ARC para bots em 2020, antes que os LLMs tivessem ganhado muita tração. O bot vencedor foi um sistema de IA especificamente treinado para resolver tarefas semelhantes às do ARC, mas, ao contrário dos LLMs, não tinha capacidades gerais; ele acertou apenas 21% dos problemas. As pessoas, por outro lado, resolvem os problemas do ARC corretamente 80% do tempo. Várias equipes de pesquisadores usaram agora o ARC para testar as capacidades dos LLMs; nenhuma chegou perto do desempenho humano.

Mitchell e seus colegas criaram um conjunto de novos quebra-cabeças – conhecidos como ConceptARC – inspirados no ARC, mas com duas diferenças importantes. Os testes ConceptARC são mais fáceis: a equipe de Mitchell queria garantir que o benchmark não deixasse de captar o progresso nas capacidades das máquinas, mesmo que pequeno. A outra diferença foi que a equipe escolheu conceitos específicos para testar e, em seguida, criou uma série de quebra-cabeças para cada conceito que são variações de um tema.

Por exemplo, para testar o conceito de igualdade, um quebra-cabeça exige que o solucionador mantenha objetos no padrão que têm as mesmas formas; outro para manter objetos que estão alinhados ao longo do mesmo eixo. O objetivo disso era reduzir as chances de um sistema de IA passar no teste sem compreender os conceitos (veja ‘Um teste de pensamento abstrato que derrota máquinas').

O que significa um mau desempenho

Os pesquisadores alimentaram as tarefas do ConceptARC no GPT-4 e em 400 pessoas inscritas online. Os humanos tiveram uma média de 91% em todos os grupos de conceitos (e 97% em um); o GPT-4 obteve 33% em um grupo e menos de 30% em todos os outros.

“Mostramos que as máquinas ainda não conseguem chegar nem perto do nível dos humanos”, diz Mitchell. “Foi surpreendente que ela tenha conseguido resolver alguns dos problemas, pois nunca tinha sido treinada para isso”, acrescenta.

A equipe também testou os principais bots do concurso de Chollet, que não eram sistemas de habilidades gerais como os LLMs, mas foram projetados para resolver quebra-cabeças visuais, como o ARC. No geral, eles se saíram melhor do que o GPT-4, mas pior do que as pessoas, com o melhor desempenho obtendo 77% em uma categoria, mas menos de 60% na maioria1.

No entanto, Bowman afirma que as dificuldades do GPT-4 com o ConceptARC não provam que ele não tem habilidades subjacentes de raciocínio abstrato. Ele diz que o ConceptARC é desfavorável ao GPT-4 – entre outras coisas, porque é um teste visual. “Mesmo que você suponha que esses modelos sejam muito bons nesse tipo de raciocínio, acho que você não esperaria realmente que esse experimento funcionasse”, diz ele.

Limitações na forma como o teste é realizado provavelmente dificultaram para o GPT-4. A versão disponível publicamente do LLM só aceita texto como entrada, então os pesquisadores forneceram ao GPT-4 matrizes de números que representavam as imagens. (Um pixel em branco poderia ser 0, e um quadrado colorido um número, por exemplo.) Em contraste, os participantes humanos simplesmente viram as imagens. “Estamos comparando um sistema apenas de linguagem com humanos, que têm um sistema visual altamente desenvolvido”, diz Mitchell. “Então pode não ser uma comparação totalmente justa.”

A OpenAI criou uma versão ‘multimodal' do GPT-4 que pode aceitar imagens como entrada. Mitchell e sua equipe estão esperando que isso esteja disponível publicamente para que possam testar o ConceptARC nele, embora ela não ache que o GPT-4 multimodal fará muito melhor. “Eu não acredito que esses sistemas tenham o mesmo tipo de conceitos abstratos e habilidades de raciocínio que as pessoas têm”, diz ela.

Sam Acquaviva, um cientista computacional de cognição do Instituto de Tecnologia de Massachusetts em Cambridge, concorda. “Eu ficaria chocado”, diz ele. Ele observa que outra equipe de pesquisadores testou o GPT-4 em um benchmark chamado 1D-ARC, no qual os padrões são restritos a uma única fileira em vez de estarem em uma grade8. Isso deveria eliminar parte da injustiça, diz ele. Embora o desempenho do GPT-4 tenha melhorado, não foi suficiente para sugerir que o LLM estava compreendendo de forma confiável a regra subjacente e raciocinando sobre ela, diz Acquaviva.

Argumento a favor do raciocínio

Bowman aponta para outros experimentos que, quando considerados em conjunto, sugerem para ele que os LLMs adquiriram pelo menos uma habilidade rudimentar de raciocinar sobre conceitos abstratos. Em um exemplo, o cientista da computação Kenneth Li da Universidade de Harvard e seus colegas usaram uma versão digital do jogo de tabuleiro Othello, no qual dois jogadores competem colocando discos pretos e brancos em uma grade 8×8. O objetivo deles era examinar se os LLMs dependem das estatísticas superficiais da linguagem memorizadas para gerar texto ou se eles podem estar construindo representações internas do mundo, como fazem as pessoas.

Quando treinaram um LLM fornecendo-lhe listas de jogadas feitas por jogadores, ele se tornou muito bom em fornecer sugestões precisas para as próximas jogadas legais. Os pesquisadores argumentaram que tinham evidências de que o LLM estava acompanhando o estado do tabuleiro e que estava usando essa representação para sugerir jogadas, em vez de apenas criar sugestões textuais9.

Bowman reconhece que as capacidades de raciocínio dos LLMs em geral são “irregulares” e mais limitadas do que nas pessoas – mas ele diz que estão lá e parecem melhorar com o tamanho do modelo, o que indica para ele que os futuros LLMs serão ainda melhores. “Esses sistemas definitivamente não estão nem perto de ser tão confiáveis ou gerais como queremos, e provavelmente há algumas habilidades específicas de raciocínio abstrato que eles ainda falham completamente”, diz ele. “Mas acredito que a capacidade básica está lá.”

Uma coisa em que Bowman, Mitchell e outros concordam é que a melhor maneira de testar os LLMs para habilidades de raciocínio abstrato e outros sinais de inteligência continua sendo um problema aberto e não resolvido. Michael Frank, um cientista cognitivo da Universidade de Stanford, na Califórnia, não espera que um único teste abrangente surja como sucessor do teste de Turing. “Não há Rubicon, nenhuma linha única”, diz ele. Em vez disso, ele acredita que os pesquisadores precisam de muitos testes para quantificar as forças e fraquezas de vários sistemas. “Esses agentes são excelentes, mas falham de muitas maneiras e sondá-los sistematicamente é absolutamente crítico”, diz ele.

Wortham oferece um conselho para quem tenta entender os sistemas de IA – evitar o que ele chama de maldição da antropomorfização. “Nós antropomorfizamos qualquer coisa que pareça demonstrar inteligência”, diz ele.

“É uma maldição, porque não podemos pensar em coisas que exibem comportamento orientado a objetivos de qualquer outra forma que não seja usando modelos humanos”, diz ele. “E estamos imaginando que a razão pela qual está fazendo isso é porque está pensando como nós, por baixo dos panos.”

Com conteúdo da Nature.