Agentes de IA melhoram ao aprender com sucessos anteriores, segundo estudo de Stanford

Um novo estudo da Universidade de Stanford conclui que agentes de inteligência artificial podem aprimorar significativamente sua capacidade de resolver tarefas complexas ao aprender com suas próprias experiências bem-sucedidas.

Até o momento, desenvolver agentes de IA eficazes costumava exigir muito esforço manual: prompts meticulosamente ajustados, conjuntos de amostras escolhidas a dedo ou espaços de ação especializados. Esses métodos funcionam, mas demandam tempo e são difíceis de ampliar. A equipe de Stanford propõe uma alternativa muito mais simples, permitindo que os próprios agentes se aprimorem ao aprender com experiências bem-sucedidas do passado.

O método desenvolvido baseia-se na arquitetura ReAct, onde um modelo de linguagem cria um plano para cada tarefa, observa, raciocina e age. A grande novidade é que, a cada etapa, o agente utiliza exemplos de um banco de dados repleto não de amostras escolhidas manualmente, mas de trajetórias bem-sucedidas de tarefas anteriores, coletadas automaticamente pelo sistema. Nesse contexto, uma trajetória corresponde à sequência completa de etapas que um agente de IA segue para solucionar um problema.

Exemplos autogerados são suficientes

Mesmo uma versão simples dessa abordagem, denominada Traj-Bootstrap, proporciona um salto expressivo nas taxas de sucesso em três benchmarks diferentes. Em ALFWorld, a precisão aumenta de 73% para 89%; no Wordcraft, passa de 55% para 64%; e no InterCode-SQL, de 75% para 79%.

Essa melhoria é resultado de um ciclo de retroalimentação positivo: exemplos bem-sucedidos auxiliam na resolução de novas tarefas, que, por sua vez, geram mais exemplos de sucesso. O sistema aprende por si mesmo e continua a evoluir, sem a necessidade de dados adicionais ou ajustes no modelo.

Duas estratégias para construir um banco de dados melhor

Nem toda trajetória coletada se mostra útil; algumas podem até prejudicar o desempenho. Para solucionar esse problema, os pesquisadores desenvolveram duas estratégias de seleção.

DB-Selection executa vários bancos de dados em paralelo. A cada vez que o tamanho do banco dobra, apenas o banco com o melhor desempenho é mantido, enquanto o menos eficaz é descartado. Essa abordagem evolutiva eleva rapidamente os resultados, fazendo com que a taxa de sucesso no ALFWorld atinja 91%.

Exemplar-Selection avalia cada trajetória com base na frequência com que ela contribui para a resolução de novos problemas. Esse método apresenta resultados especialmente positivos para o Wordcraft, elevando a taxa de sucesso para 72%, e para o InterCode-SQL, que sobe para 81%.

Um toque de intervenção humana ainda se mostra valioso. O sistema tem um desempenho significativamente melhor quando o banco de dados inicial inclui alguns exemplos selecionados manualmente para orientar o agente desde o começo. Sem esses exemplos, a performance tende a cair, de acordo com a equipe.

GPT-4o-mini com Traj supera o GPT-4o

No benchmark ALFWorld, a abordagem Traj-Bootstrap aplicada ao menor GPT-4o-mini supera, por um ponto percentual, o desempenho do modelo GPT-4o maior. Utilizando a estratégia DB-Selection, o sistema iguala a performance de configurações hierárquicas mais complexas, que dependem de espaços de observação e de ação definidos manualmente.

Além disso, o método se mostra mais eficiente se comparado a estratégias nas quais um agente pode tentar diversas respostas para a mesma tarefa. Um agente treinado com Traj-Bootstrap alcança a mesma performance do sistema baseado em uma única tentativa, enquanto este último necessita de três ou quatro tentativas.

O estudo demonstra que o sucesso não depende do tamanho do modelo, mas da qualidade dos dados. Em vez de investir constantemente na criação de novos modelos ou na otimização de comandos, muitas vezes bastam a coleta de bons exemplos e uma seleção criteriosa para aprimorar o desempenho dos agentes de IA, acompanhando uma tendência observada em outras áreas da inteligência artificial generativa.