O próximo salto em IA depende de agentes que aprendem fazendo, não apenas lendo o que os humanos escreveram
A “Lição Amarga” de Richard Sutton apresenta uma verdade dura no cerne da IA moderna: não é a injeção engenhosa de conhecimento humano, mas sim algoritmos escaláveis de aprendizado e busca que proporcionam avanços duradouros. Agora, um novo artigo de Sutton e David Silver amplia essa tese, esboçando uma visão revolucionária para agentes de IA que evoluem unicamente por meio da ação e do feedback.
Em 2019, Sutton publicou um breve ensaio que se tornou uma das referências mais influentes na atual pesquisa em IA. Seu argumento central é que os maiores avanços em IA não surgiram da intuição humana, mas de máquinas que, com poder computacional massivo e pouco conhecimento pré-programado, aprenderam a se aperfeiçoar de forma autônoma.
Sutton sustenta que os humanos tendem a impor sua própria intuição aos algoritmos — mas, no final das contas, são os métodos sistemáticos e orientados por dados que prevalecem. Essa “lição amarga” é hoje a base do aprendizado por reforço, tecnologia por trás do AlphaGo e, mais recentemente, da nova onda de modelos de linguagem que “raciocinam”.
Cinco anos depois, Sutton — ganhador do Prêmio Turing e à frente do laboratório da DeepMind em Alberta —, juntamente com seu ex-aluno de doutorado e líder de RL na DeepMind, David Silver, publicaram um novo ensaio intitulado “Welcome to the Era of Experience”.
O artigo propõe uma mudança radical: sair de uma abordagem que constrói a IA com base no conhecimento humano e desenvolver sistemas que se aperfeiçoem atuando no mundo e aprendendo a partir do feedback. A visão é de uma IA que evolui por seus próprios termos, em vez de apenas reorganizar o que já se conhece.
Indo além dos dados gerados por humanos
Sutton e Silver ressaltam que a atual IA generativa — como os grandes modelos de linguagem — é construída quase que inteiramente com dados humanos: livros, sites, fóruns, todos coletados e reorganizados. Esses modelos podem realizar muitas tarefas, mas enfrentam um limite: a oferta de dados humanos de alta qualidade pode se esgotar, e certos avanços simplesmente ultrapassam o que os humanos conseguiram descobrir até o momento. Uma IA que aprende por imitação se tornará competente, mas dificilmente será verdadeiramente criativa.
Para os autores, é fundamental termos agentes que estejam em constante aprendizado e adaptação. Em vez de serem treinados uma única vez e depois permanecerem estáticos, as futuras IAs devem viver em um fluxo contínuo de experiências, ajustando-se ao ambiente ao longo de meses ou anos — assim como acontece com pessoas ou animais. Cada nova ação, cada experimento, é uma fonte inédita de dados. Diferentemente do texto produzido por humanos, a experiência não tem limites.
Essa mudança representa uma transformação profunda: sair dos conjuntos de dados fixos para uma interação contínua, migrando do aprendizado supervisionado para a exploração aberta. Nesse novo paradigma, a inteligência emerge por meio do comportamento e da adaptação, e não apenas a partir de comandos ou bancos de dados. Se bem-sucedida, essa abordagem pode levar a avanços significativos nas capacidades da IA.
Treinando a IA com Modelos do Mundo
O artigo descreve como métodos clássicos de aprendizado por reforço podem ser combinados com técnicas mais recentes. Um exemplo é o AlphaProof, um sistema da DeepMind desenvolvido para a matemática formal. Essa abordagem funde um modelo de linguagem pré-treinado com o algoritmo de aprendizado por reforço do AlphaZero. Após um breve aprendizado com provas humanas, o AlphaProof foi capaz de gerar mais de 100 milhões de etapas de prova adicionais através da exploração autônoma, superando sistemas treinados exclusivamente com dados humanos cuidadosamente selecionados.
Sutton e Silver desejam ampliar essa ideia para o mundo real. Eles imaginam, por exemplo, assistentes de saúde que analisem padrões de sono e ajustem suas recomendações, agentes educacionais que acompanhem o progresso dos alunos ao longo dos anos ou mesmo IAs científicas que conduzam seus próprios experimentos.
A chave está em fazer com que esses agentes recebam feedback não apenas por meio de avaliações humanas, mas também por sinais mensuráveis do ambiente — como frequência cardíaca de repouso, níveis de CO₂, resultados de testes, entre outros. O feedback humano ainda pode desempenhar um papel, mas somente quando fundamentado nas consequências reais de uma ação, como o sabor de um bolo ou a sensação após um exercício físico.
Quando se trata do “pensar” das máquinas, os autores defendem romper com as práticas atuais. Os modelos de linguagem tentam imitar o raciocínio humano através de abordagens como “chain-of-thought”, mas isso apenas incorpora erros e vieses humanos ao sistema.
Em vez disso, os agentes deveriam construir seus próprios “modelos internos do mundo” — simulações que lhes permitam prever os resultados de suas ações. Isso possibilitaria um planejamento real, e não apenas truques elegantes de linguagem. Eles preveem que os futuros agentes seguirão etapas intermediárias: chamar APIs, executar códigos e observar feedback, servindo de suporte para uma autonomia genuína.
Os autores também veem essa “Era da Experiência” como um retorno às raízes do aprendizado por reforço, que haviam sido ofuscadas pelo sucesso dos grandes modelos de linguagem e do RLHF. O aprendizado e o planejamento a longo prazo exigirão ferramentas como abstração temporal, comportamento exploratório e funções de valor dinâmicas — elementos clássicos do aprendizado por reforço.
Segundo os autores, essa mudança já está em andamento. Exemplos disso são os agentes digitais que interagem com interfaces de usuário, sistemas de aprendizado por reforço que enfrentam tarefas abertas e IAs cada vez mais conectadas a fluxos de dados do mundo real. Um desses sistemas agentivos, o modelo o3 utilizado na Deep Research da OpenAI, foi treinado com uma ampla variedade de desafios complexos de navegação e raciocínio usando técnicas de aprendizado por reforço.
Mais autonomia significa mais responsabilidade
Com maior autonomia surgem tanto oportunidades como riscos. Agentes capazes de planejar e se adaptar a longo prazo podem adquirir habilidades tradicionalmente consideradas exclusivas dos humanos, o que pode tornar esses sistemas mais difíceis de controlar e ajustar do que softwares convencionais.
Entretanto, Sutton e Silver sugerem que a própria natureza da interação contínua pode aprimorar a segurança. Agentes inseridos em ambientes reais poderiam aprender a reconhecer consequências não intencionais e a ajustar seu comportamento de acordo. Funções de recompensa poderiam ser refinadas com base no feedback dos usuários, e restrições do mundo real — como estudos médicos — naturalmente desacelerariam avanços precipitados.
Segundo eles, os ingredientes técnicos já estão disponíveis: poder computacional suficiente, ambientes de simulação e algoritmos de aprendizado por reforço. Embora a “inteligência baseada em experiência” ainda seja um campo incipiente, as ferramentas existem e os pesquisadores apelam para uma postura aberta da comunidade de IA frente a esse novo paradigma.
A mensagem é clara: a experiência não deve ser tratada como algo secundário, mas sim servir de alicerce para todo o desenvolvimento em IA. Sutton e Silver defendem que os avanços futuros virão de sistemas que aprendem a pensar de forma independente, em vez de apenas reproduzir ideias humanas.
Reconhecendo os limites dos modelos de linguagem
A ideia de que o mero modelamento de linguagem não nos levará até a uma IA super-humana tornou-se, discretamente, uma visão dominante na indústria. Independentemente de quanto texto seja utilizado no treinamento, os modelos ainda enfrentam dificuldades com o senso comum e na capacidade de generalizar entre diferentes tarefas.
Vozes influentes já estão se alinhando nessa direção. Ilya Sutskever, cofundador da OpenAI, está atualmente trabalhando em caminhos alternativos para a superinteligência em sua nova startup “SSI”. Ele já havia discutido a ideia de alcançar um “pico de dados” em 2024 e defendeu a busca por novas abordagens. Do mesmo modo, o pesquisador da Meta, Yann LeCun, tem pressionado por novas arquiteturas que ultrapassem os limites dos modelos de linguagem. Sam Altman, CEO da OpenAI, afirmou recentemente que a linguagem por si só simplesmente não é suficiente para atingir a AGI.
Uma direção promissora é a já mencionada ideia de “modelos do mundo” — sistemas que não processem apenas a linguagem, mas também experiências sensoriais e motoras, construindo uma noção de causalidade, espaço, tempo e ação. O grande desafio é que os avanços nessa área ainda parecem distantes.
Talvez o maior desafio para o aprendizado por reforço, fora de domínios específicos como jogos ou determinadas tarefas matemáticas, seja a generalização, especialmente para problemas sem uma resposta claramente correta ou errada. Os recentes modelos de linguagem capazes de raciocinar apresentam um desempenho muito superior em matemática do que os modelos tradicionais, mas não necessariamente se destacam em tarefas que envolvam conhecimento ou criatividade.