Google AI propõe o ReasoningBank: um framework de memória de agente em nível estratégico que permite que agentes LLM se autoevoluam em tempo de teste

Como fazer com que um agente LLM aprenda efetivamente com suas próprias execuções – tanto os sucessos quanto os fracassos – sem precisar ser retreinado? O Google Research propõe o ReasoningBank, um framework de memória para agentes de IA que converte os rastros de interações – incluindo acertos e erros – em estratégias de raciocínio reutilizáveis e de alto nível. Essas estratégias são recuperadas para orientar decisões futuras, e o ciclo se repete, permitindo que o agente se autoevolua. Em conjunto com a técnica de escalonamento em tempo de teste consciente da memória (MaTTS), a abordagem apresenta ganhos de eficácia relativos de até +34,2% e uma redução de 16% nas etapas de interação em benchmarks de web e engenharia de software, se comparada a designs de memória anteriores que armazenavam trajetórias brutas ou utilizavam apenas fluxos de trabalho baseados em sucessos.

Então, qual é o problema?

Agentes LLM enfrentam tarefas de múltiplas etapas – como navegação na web, uso de computadores e correção de bugs em repositórios – mas geralmente não conseguem acumular e reutilizar experiências. As abordagens convencionais de “memória” tendem a acumular logs brutos ou fluxos de trabalho rígidos, que se mostram frágeis em diferentes ambientes e frequentemente ignoram sinais úteis oriundos dos fracassos, onde reside uma grande parcela de conhecimento acionável. O ReasoningBank reformula a memória em itens de estratégia compactos e de fácil leitura, facilitando sua transferência entre tarefas e domínios.

Então, como funciona?

Cada experiência é destilada em um item de memória que inclui um título, uma descrição resumida e um conteúdo repleto de princípios acionáveis – como heurísticas, verificações e restrições. A recuperação desses itens é baseada em embeddings: para uma nova tarefa, os itens mais relevantes são injetados como orientação do sistema; após a execução, novos itens são extraídos e consolidados. O ciclo é intencionalmente simples – recuperar → injetar → julgar → destilar → adicionar – para que as melhorias possam ser atribuídas à abstração das estratégias, em vez de um gerenciamento complexo de memória.

Por que isso é transferível? Os itens de memória codificam padrões de raciocínio (por exemplo, “prefira páginas de conta para dados específicos do usuário; verifique o modo de paginação; evite armadilhas de rolagem infinita; confronte o estado com a especificação da tarefa”) em vez de passos específicos de estrutura de página (DOM). Além disso, os fracassos são transformados em restrições negativas (como “não dependa da busca quando o site desativa a indexação; confirme o estado salvo antes de navegar”), evitando a repetição de erros.

Escalonamento em tempo de teste consciente da memória (MaTTS)

O escalonamento em tempo de teste – que consiste em realizar mais execuções ou refinamentos por tarefa – é eficaz somente se o sistema puder extrair aprendizado das trajetórias adicionais. Para integrar esse processo ao ReasoningBank, os pesquisadores propuseram a abordagem MaTTS, que se desdobra em duas modalidades:

  • MaTTS Paralelo: gera k execuções em paralelo e, em seguida, realiza um autocontraste para refinar a memória de estratégia;
  • MaTTS Sequencial: refina iterativamente uma única trajetória, extraindo notas intermediárias que servem como sinais de memória.

Qual é o desempenho desses frameworks propostos?

Eficácia: A combinação ReasoningBank + MaTTS melhora o sucesso das tarefas em até 34,2% (relativo) quando comparada a métodos que não utilizam memória, superando também os designs anteriores que reutilizavam trajetórias brutas ou processos baseados exclusivamente em sucessos.

Eficiência: O número de etapas de interação diminui em 16% no conjunto, com análises indicando que a maior redução ocorre em tentativas bem-sucedidas, o que aponta para uma diminuição de ações redundantes, e não para abortos prematuros.

Onde isso se encaixa na pilha de agentes?

O ReasoningBank funciona como uma camada de memória plug-in para agentes interativos que já utilizam ciclos de decisão no estilo ReAct ou técnicas de escalonamento em tempo de teste do tipo best-of-N. Ele não substitui mecanismos de verificação ou planejamento; ao contrário, amplifica esses processos ao injetar lições destiladas diretamente no nível do prompt ou do sistema. Em tarefas na web, ele complementa soluções como BrowserGym, WebArena e Mind2Web; em tarefas de software, integra-se com configurações verificadas por benchmarks especializados.

Confira o paper para mais detalhes.