Microscópio de IA da Anthropic revela como Claude planeja respostas na geração de poesia

O novo “microscópio de IA” da Anthropic oferece uma visão limitada das representações internas do modelo Claude 3.5 Haiku, revelando como ele processa informações e raciocina em tarefas complexas.

Um dos principais achados é que o Claude aparentemente utiliza uma espécie de representação interna independente do idioma – o que os pesquisadores chamam de “linguagem universal do pensamento”. Por exemplo, ao ser solicitado a gerar o oposto da palavra “pequeno” em diversos idiomas, o modelo ativa primeiro um conceito compartilhado antes de fornecer a resposta traduzida para o idioma de destino.

brain network illustration

A sobreposição dos caminhos multilíngues evidencia a conexão conceitual entre “pequeno” e “grande” em inglês, chinês e francês. Segundo os pesquisadores, modelos maiores, como o Claude 3.5, apresentam uma maior sobreposição conceitual entre as línguas, o que pode favorecer um raciocínio multilíngue mais consistente.

O estudo também analisou a resposta do Claude a perguntas que exigem múltiplos passos de raciocínio, como por exemplo: “Qual é a capital do estado em que Dallas está localizada?” Nesse caso, o modelo ativa representações para “Dallas está no Texas” e, em seguida, conecta isso ao fato de que “a capital do Texas é Austin”. Essa sequência indica que o modelo não está apenas recordando fatos, mas realizando uma inferência em múltiplos passos.

anthropic llm research human brain 1

Detectando sinais de planejamento

Os pesquisadores descobriram que o Claude planeja diversas palavras com antecedência ao gerar poesia. Em vez de compor linha por linha, o modelo começa selecionando palavras que rimam de forma apropriada e, a partir daí, estrutura cada linha para direcionar até essas metas. Caso essas palavras-alvo sejam alteradas, o Claude produz um poema completamente diferente, evidenciando um planejamento deliberado, e não uma simples previsão palavra por palavra.

Para tarefas matemáticas, o Claude utiliza caminhos de processamento paralelos – um voltado à aproximação e outro ao cálculo preciso. No entanto, quando solicitado a explicar seu raciocínio, o modelo descreve um processo distinto do que realmente empregou, sugerindo que imita explicações similares às humanas, em vez de relatar com exatidão sua lógica interna. Os pesquisadores também observaram que, quando apresentado a uma pista equivocada, o modelo frequentemente gera uma explicação coerente, porém logicamente imprecisa.

Comparando o processamento de linguagem entre IA e seres humanos

Pesquisas realizadas pelo Google trazem uma linha de investigação paralela. Um estudo recente publicado na revista Nature Human Behavior analisou semelhanças entre modelos de linguagem de IA e a atividade cerebral humana durante conversas. A equipe do Google constatou que as representações internas do modelo Whisper, da OpenAI, apresentavam um alinhamento próximo com os padrões de atividade neural registrados a partir de sujeitos humanos, sugerindo que ambos os sistemas parecem prever palavras futuras antes de serem pronunciadas.

anthropic llm research human brain 2

Apesar dessas similaridades, os pesquisadores ressaltam diferenças fundamentais entre os sistemas. Ao contrário dos modelos baseados em Transformer, que podem processar centenas ou milhares de tokens simultaneamente, o cérebro humano processa a linguagem de forma sequencial – palavra por palavra, ao longo do tempo, e por meio de ciclos repetitivos. Conforme descrito pelo Google, “embora o cérebro humano e os LLMs baseados em Transformer compartilhem princípios computacionais básicos no processamento da linguagem natural, suas arquiteturas de circuitos neurais subjacentes diferem significativamente.”

Resumo

  • A Anthropic desenvolveu um método para visualizar os mecanismos internos do modelo Claude 3.5 Haiku, revelando como ele ativa conceitos abstratos de forma multilíngue antes de gerar respostas.
  • O estudo demonstra que o Claude forma conexões lógicas progressivas ao responder perguntas complexas e planeja estrategicamente a geração de poesia, iniciando pela escolha de palavras rimadas.
  • Pesquisas do Google identificaram semelhanças entre modelos de linguagem e o cérebro humano, embora destaquem que o processamento humano da linguagem ocorre de maneira sequencial e de forma mais complexa.