Junte-se a mais de 10 mil líderes de tecnologia e capital de risco no Disrupt 2025

Netflix, Box, a16z, ElevenLabs, Wayve, Hugging Face, Elad Gil, Vinod Khosla — são apenas alguns dos mais de 250 nomes que conduzirão mais de 200 sessões, especialmente preparadas para oferecer os insights que impulsionam o crescimento das startups e ampliam sua vantagem competitiva. Não perca a chance de aprender com as principais vozes da tecnologia. Garanta seu ingresso antes da abertura das portas e economize até US$444.

San Francisco | 27 a 29 de outubro de 2025

A lacuna de reforço — ou por que algumas habilidades de IA melhoram mais rápido que outras

As ferramentas de codificação com inteligência artificial estão evoluindo rapidamente. Se você não trabalha com código, pode ser difícil perceber a velocidade dessas mudanças, mas modelos como o GPT-5 e o Gemini 2.5 possibilitaram uma nova gama de truques para automatizar processos, e na semana passada o Sonnet 2.4 surpreendeu mais uma vez.

Ao mesmo tempo, outras áreas têm avançado mais lentamente. Se você usa a IA para redigir e-mails, provavelmente está obtendo o mesmo benefício de um ano atrás. Mesmo com a melhora dos modelos, o produto nem sempre se beneficia — especialmente quando se trata de chatbots que acumulam diversas funções simultâneas. A inteligência artificial continua evoluindo, mas o progresso não é tão uniforme como costumava ser.

A diferença no progresso é mais simples do que parece. Aplicações voltadas para programação se beneficiam de bilhões de testes facilmente mensuráveis, que as treinam para produzir códigos funcionais. Esse é o aprendizado por reforço (RL), possivelmente o maior impulsionador do progresso em IA nos últimos meses, e que vem se tornando cada vez mais sofisticado. Embora seja possível aplicar o aprendizado por reforço com avaliadores humanos, ele funciona melhor quando existe um critério claro de aprovação ou reprovação, permitindo repeti-lo bilhões de vezes sem interrupção para intervenções humanas.

À medida que a indústria depende cada vez mais do aprendizado por reforço para aprimorar produtos, nota-se uma diferença real entre as capacidades que podem ser avaliadas automaticamente e aquelas que não podem. Habilidades compatíveis com o RL, como a correção de erros em códigos e a resolução de problemas matemáticos competitivos, estão melhorando rapidamente, enquanto outras, como a escrita, progridem de forma incremental.

Em resumo, existe uma lacuna de reforço — e ela se torna um dos fatores mais importantes para definir o que os sistemas de IA conseguem ou não fazer.

De certa forma, o desenvolvimento de software é o cenário ideal para o aprendizado por reforço. Mesmo antes da popularização da IA, havia uma subdisciplina inteira dedicada a testar como o software se comportaria sob pressão — principalmente porque os desenvolvedores precisavam ter certeza de que seus códigos não apresentariam falhas após o lançamento. Assim, mesmo o código mais elegante precisa passar por testes unitários, de integração, de segurança, entre outros. Esses testes, já sistematizados e replicáveis em larga escala, são extremamente úteis tanto para validar o código produzido por humanos quanto o gerado por IA.

Não há uma maneira simples de validar um e-mail bem escrito ou uma resposta satisfatória de um chatbot; essas habilidades são inerentemente subjetivas e difíceis de medir em grande escala. Contudo, nem todas as tarefas se encaixam perfeitamente nas categorias “fáceis de testar” ou “difíceis de testar”. Ainda não dispomos de um kit de testes pronto para relatórios financeiros trimestrais ou para a ciência atuarial, mas uma startup de contabilidade bem capitalizada provavelmente conseguiria desenvolver um do zero. Alguns kits funcionarão melhor que outros, e algumas empresas serão mais inteligentes na abordagem do desafio, mas a testabilidade do processo subjacente será sempre o fator determinante para transformar uma ideia em um produto funcional — e não apenas em uma demonstração tecnológica empolgante.

À medida que o aprendizado por reforço se consolida como a principal ferramenta para levar produtos de IA ao mercado, a “lacuna de reforço” tende a se ampliar, com sérias implicações tanto para startups quanto para a economia em geral. Processos que se enquadram do lado favorável desse gap provavelmente serão automatizados com sucesso; enquanto aqueles que ficam para trás poderão levar profissionais a buscar novas oportunidades. A questão sobre quais serviços de saúde, por exemplo, podem ser treinados via RL tem implicações significativas na estrutura econômica para as próximas décadas. Se os avanços surpreendentes, como demonstrado pelo Sora 2, são um indicativo, pode não demorar muito para que tenhamos respostas definitivas.