Um novo estudo das universidades Tsinghua e Shanghai Jiao Tong investigou se o aprendizado por reforço com recompensas verificáveis (RLVR) realmente melhora a capacidade de raciocínio dos grandes modelos de linguagem ou apenas os torna mais eficientes na repetição de soluções já conhecidas.
A pesquisa conclui que o RLVR aumenta a probabilidade de o modelo acertar a resposta logo na primeira tentativa—o chamado pass@1—mas não adiciona novas habilidades. “O RLVR não é tão poderoso quanto se pensava—ele não faz com que o modelo resolva problemas que o modelo base não conseguiria,” afirma o autor principal do estudo, Yang Yue.
O CEO da OpenAI, Sam Altman, parece ciente dessas limitações. Ele já sugeriu que a combinação entre habilidades de raciocínio e modelos muito maiores, por meio de pré-treinamento, pode eventualmente revelar “os primeiros sinais de vida em direção a um conhecimento científico realmente novo”, indicando que o aumento de escala—e não apenas o reforço—pode ser o fator decisivo para avanços no raciocínio dos modelos.
O RLVR é usado principalmente no treinamento de modelos de raciocínio em tarefas com resultados verificáveis, como matemática, programação e raciocínio visual. Em vez de depender de avaliações humanas, ele utiliza sinais automáticos—como cálculos corretos ou testes de código bem-sucedidos—como critérios de recompensa. Esse método já foi adotado em modelos como a série o da OpenAI e o Deepseek-R1.
Eficiência vem com perda de diversidade
O estudo revela que o RLVR diminui a variedade de respostas—chamada de entropia—ao concentrar as saídas em poucos caminhos de solução com alta recompensa. Isso aumenta as chances de acerto logo na primeira tentativa, mas limita a capacidade do modelo de explorar alternativas em múltiplas gerações.
Os pesquisadores compararam modelos base com versões treinadas com RLVR usando a métrica pass@k, que avalia se ao menos uma resposta correta aparece entre várias tentativas. Os modelos com RLVR se saíram melhor quando poucas respostas eram geradas, devido ao foco em estratégias de alta probabilidade. No entanto, à medida que mais respostas eram produzidas, os modelos base superavam os com RLVR ao oferecerem uma gama mais ampla de possibilidades—independentemente do tipo de modelo ou tarefa.
Esse mesmo padrão foi observado em tarefas de matemática, programação e raciocínio visual. Modelos treinados com RLVR frequentemente acertavam na primeira tentativa, mas apresentavam desempenho inferior quando submetidos a várias tentativas.
Uma análise manual do raciocínio em cadeia (CoT) mostrou que os modelos base já eram capazes de resolver tarefas complexas utilizando estratégias variadas—algumas anteriormente atribuídas apenas a modelos treinados com reforço. Visualizações dos caminhos de raciocínio confirmaram que o RLVR não introduziu novos comportamentos, mas sim aumentou a probabilidade de o modelo escolher estratégias bem-sucedidas que já existiam em sua versão original.

RLVR favorece a repetição, não a generalização
O pesquisador Nathan Lambert considera os resultados coerentes com o que já se esperava. “Isso não é uma intuição nova”, afirma, “mas é um bom conjunto de resultados.” Para ele, o interessante é que o estudo mostra como o RL reduz a entropia das amostras, tornando o modelo mais eficaz no pass@1.
Lambert também destaca a limitação dos dados usados no treinamento, observando que os modelos foram treinados apenas com os conjuntos MATH e GSM8K—dados que ele considera “ótimos para análises controladas”, mas “insuficientes para revelar os limites fundamentais do treinamento por reforço”. Para tirar conclusões mais amplas, segundo ele, será necessário escalar a abordagem: “A OpenAI e outros já demonstraram que escalar o RL é essencial, e com esses conjuntos restritos isso não é realmente possível.”
Em vez de uma crítica ao aprendizado por reforço como um todo, Lambert vê o estudo como um lembrete da necessidade de avanços contínuos. Como ele resume: “Estamos apenas começando a chegar no ponto em que precisamos fazer coisas difíceis. Coisas difíceis são mais interessantes, mas, surpresa, são difíceis e demoram mais.”
Yue observa que o estudo se concentrou em modelos RL treinados do zero, sem aprimoramentos como o ajuste fino com raciocínio em cadeia (CoT) ou destilação de conhecimento: “Aqui focamos em modelos treinados com RL puro. O modelo da OpenAI deve ter ajustes extras com CoT, destilação etc.” Ele também concorda que etapas adicionais—como iniciar com ajuste supervisionado—podem melhorar o desempenho dos modelos de raciocínio.
Com conteúdo de The Decoder.