Silicon Valley aposta alto em “ambientes” para treinar agentes de IA
Durante anos, CEOs das grandes empresas de tecnologia têm promovido visões de agentes de IA capazes de usar aplicativos de software de forma autônoma para realizar tarefas para as pessoas. Porém, ao colocar em prática os agentes de IA para o consumidor – seja o ChatGPT Agent da OpenAI ou o Comet da Perplexity – nota-se rapidamente o quão limitada a tecnologia ainda é. Tornar os agentes de IA mais robustos pode exigir um novo conjunto de técnicas que a indústria ainda está descobrindo.
Uma dessas técnicas consiste em simular cuidadosamente ambientes de trabalho onde os agentes podem ser treinados em tarefas com múltiplas etapas – conhecidos como ambientes de aprendizado por reforço (RL). Assim como conjuntos de dados rotulados impulsionaram a última onda de IA, os ambientes de RL começam a parecer um elemento crítico no desenvolvimento desses agentes.
Pesquisadores de IA, fundadores e investidores afirmam que os principais laboratórios de IA estão agora exigindo mais ambientes de RL, e não faltam startups dispostas a oferecê-los.
“Todos os grandes laboratórios de IA estão criando ambientes de RL internamente”, afirmou Jennifer Li, sócia-gerente da Andreessen Horowitz, em entrevista. “Mas, como você pode imaginar, criar esses conjuntos de dados é muito complexo, então os laboratórios também estão recorrendo a fornecedores terceiros que podem criar ambientes e avaliações de alta qualidade. Todo mundo está de olho nesse espaço.”
A corrida por ambientes de RL deu origem a uma nova classe de startups bem financiadas, como Mechanize Work e Prime Intellect, que buscam ser líderes nesse segmento. Paralelamente, grandes empresas de rotulagem de dados, como Mercor e Surge, afirmam estar investindo mais em ambientes de RL para acompanhar a transição da indústria de conjuntos de dados estáticos para simulações interativas. Inclusive, os principais laboratórios estão considerando investir pesado: segundo o The Information, líderes da Anthropic discutiram destinar mais de US$ 1 bilhão em ambientes de RL no próximo ano.
A esperança entre investidores e fundadores é que uma dessas startups se torne o “Scale AI dos ambientes”, fazendo referência ao poderosíssimo trabalho de rotulagem de dados no valor de US$ 29 bilhões que impulsionou a era dos chatbots.
A questão que fica é se os ambientes de RL realmente impulsionarão a fronteira do progresso da IA.
O que é um ambiente RL?
No seu núcleo, os ambientes de RL são campos de treinamento que simulam o que um agente de IA faria em um aplicativo real. Um fundador descreveu sua construção em uma entrevista recente “como criar um videogame muito entediante.”
Por exemplo, um ambiente pode simular um navegador Chrome e incumbir um agente de IA de comprar um par de meias na Amazon. O desempenho do agente é avaliado e ele recebe um sinal de recompensa quando obtém sucesso (neste caso, adquirindo um bom par de meias).
Embora a tarefa pareça simples, há muitos detalhes onde o agente de IA pode se perder. Ele pode se confundir ao navegar pelos menus suspensos da página ou acabar comprando meias em excesso. E, como os desenvolvedores não conseguem prever exatamente qual erro o agente cometerá, o próprio ambiente precisa ser robusto o suficiente para capturar qualquer comportamento inesperado, mas ainda assim fornecer um feedback útil. Isso torna a construção desses ambientes muito mais complexa do que a criação de um conjunto de dados estático.
Alguns ambientes são bastante elaborados, permitindo que agentes de IA usem ferramentas, acessem a internet ou utilizem diversos softwares para completar uma determinada tarefa. Outros têm um escopo mais restrito, focando em ajudar um agente a aprender tarefas específicas em aplicativos empresariais.
Embora os ambientes de RL sejam a grande tendência em Silicon Valley atualmente, há bastante histórico no uso dessa técnica. Um dos primeiros projetos da OpenAI, em 2016, envolvia a criação dos RL Gyms, que eram bastante semelhantes à concepção moderna de ambientes. No mesmo ano, o sistema de IA do Google DeepMind, o AlphaGo, derrotou um campeão mundial no jogo de tabuleiro Go utilizando técnicas de aprendizado por reforço em um ambiente simulado.
O que diferencia os ambientes de hoje é que pesquisadores estão tentando construir agentes de IA que interajam com computadores utilizando modelos de transformadores em larga escala. Diferentemente do AlphaGo, que era um sistema especializado operando em ambientes fechados, os agentes de IA atuais são treinados para terem capacidades mais gerais. Os pesquisadores têm um ponto de partida mais robusto, mas também enfrentam um objetivo mais complexo, com mais variáveis que podem dar errado.
Um mercado concorrente
Empresas de rotulagem de dados para IA, como Scale AI, Surge e Mercor, estão tentando aproveitar o momento e desenvolver ambientes de RL. Essas empresas contam com mais recursos que muitas startups do setor, além de relações consolidada com os laboratórios de IA.
O CEO da Surge, Edwin Chen, contou que recentemente houve um “aumento significativo” na demanda por ambientes de RL nos laboratórios de IA. A Surge – que teria gerado US$ 1,2 bilhão em receita no ano passado ao trabalhar com laboratórios como OpenAI, Google, Anthropic e Meta – criou uma nova organização interna especificamente designada para a construção desses ambientes.
Perto da Surge está a Mercor, uma startup avaliada em US$ 10 bilhões, que também já trabalhou com OpenAI, Meta e Anthropic. A Mercor apresenta a investidores seu negócio de criação de ambientes de RL voltados para tarefas específicas, como programação, saúde e direito, segundo materiais de marketing vistos recentemente.
O CEO da Mercor, Brendan Foody, afirmou em entrevista que “poucos compreendem o quão grande é a oportunidade em torno dos ambientes de RL”.
A Scale AI, que antes dominava o espaço de rotulagem de dados, perdeu terreno após a Meta investir US$ 14 bilhões e contratar seu CEO. Desde então, empresas como Google e OpenAI deixaram de utilizar a Scale AI como fornecedora de dados, e a startup enfrenta até mesmo concorrência pela realização de trabalhos de rotulagem internamente na Meta. Ainda assim, a Scale está se esforçando para acompanhar o momento e desenvolver ambientes.
“Essa é apenas a natureza do negócio em que a [Scale AI] está inserida”, explicou Chetan Rane, chefe de produto para agentes e ambientes de RL da Scale AI. “A Scale já provou sua capacidade de se adaptar rapidamente. Fizemos isso nos primórdios dos veículos autônomos, em nossa primeira unidade de negócios. Quando o ChatGPT foi lançado, a Scale AI se adaptou. E agora, mais uma vez, estamos nos adaptando a novos espaços de fronteira como agentes e ambientes.”
Alguns novos players estão focando exclusivamente em ambientes desde o início. Entre eles, a Mechanize Work, uma startup fundada há cerca de seis meses com o ambicioso objetivo de “automatizar todos os empregos”. Contudo, o cofundador Matthew Barnett afirmou que sua empresa está começando com ambientes de RL para agentes de programação por IA.
A Mechanize Work pretende fornecer aos laboratórios de IA um pequeno número de ambientes de RL robustos, em contraste com grandes empresas de dados que criam uma ampla variedade de ambientes simples. Para isso, a startup está oferecendo a engenheiros de software salários na ordem de US$ 500 mil – bem acima do que um contratado horista conseguiria ganhar trabalhando em empresas como Scale AI ou Surge.
A Mechanize Work já vem colaborando com a Anthropic na construção desses ambientes, segundo fontes próximas à questão. Ambas as partes preferiram não comentar a parceria.
Outras startups apostam que os ambientes de RL terão impacto fora dos laboratórios de IA. A Prime Intellect, apoiada pelo pesquisador de IA Andrej Karpathy, Founders Fund e Menlo Ventures, está mirando desenvolvedores de menor porte com seus ambientes de RL.
No mês passado, a Prime Intellect lançou um hub de ambientes de RL, que visa ser um “Hugging Face para ambientes de RL”. A ideia é oferecer a desenvolvedores de código aberto o mesmo acesso a recursos que os grandes laboratórios de IA têm, comercializando também acesso a recursos computacionais no processo.
Treinar agentes com capacidades gerais em ambientes de RL pode ser mais exigente em termos computacionais do que as técnicas anteriores de treinamento de IA, conforme destacou o pesquisador da Prime Intellect, Will Brown. Paralelamente às startups que constroem ambientes de RL, existe ainda uma oportunidade para fornecedores de GPUs que podem alimentar esse processo.
“Os ambientes de RL serão grandes demais para que qualquer empresa consiga dominá-los sozinha”, afirmou Brown em entrevista. “Parte do que estamos fazendo é justamente tentar construir uma boa infraestrutura open-source em torno disso. O serviço que vendemos é o computacional, portanto é uma forma conveniente de utilizar GPUs, mas estamos pensando nisso a longo prazo.”
Será que vai escalar?
A questão em aberto é se a técnica dos ambientes de RL conseguirá escalar como os métodos anteriores de treinamento de IA.
O aprendizado por reforço foi responsável por alguns dos maiores avanços na IA no último ano, incluindo modelos como o o1 da OpenAI e o Claude Opus 4 da Anthropic. Essas inovações são particularmente importantes porque os métodos anteriormente utilizados para aprimorar os modelos de IA vêm apresentando retornos decrescentes.
Os ambientes fazem parte de uma aposta ainda maior dos laboratórios de IA no aprendizado por reforço, que muitos acreditam continuarão impulsionando o progresso à medida que mais dados e recursos computacionais sejam adicionados ao processo. Alguns dos pesquisadores da OpenAI por trás do o1 afirmaram, em entrevistas anteriores, que a empresa investiu inicialmente em modelos de raciocínio — desenvolvidos por meio de investimentos em RL e computação em tempo de teste — justamente porque acreditavam que isso escalaria bem.
A melhor forma de escalar o RL ainda não está clara, mas os ambientes parecem ser um candidato promissor. Em vez de simplesmente recompensar chatbots por respostas textuais, eles permitem que os agentes operem em simulações com ferramentas e computadores à disposição. Isso é muito mais exigente em termos de recursos, mas potencialmente mais recompensador.
Alguns são céticos quanto ao sucesso de todos esses ambientes de RL. Ross Taylor, ex-líder de pesquisa em IA na Meta e cofundador da General Reasoning, afirma que os ambientes de RL são suscetíveis a “reward hacking” – um processo em que os modelos de IA trapaceiam para obter a recompensa sem realmente realizar a tarefa proposta.
“Acho que as pessoas subestimam o quão difícil é escalar os ambientes”, afirmou Taylor. “Mesmo os melhores ambientes de RL disponíveis publicamente normalmente não funcionam sem modificações sérias.”
Sherwin Wu, chefe de Engenharia da API da OpenAI, disse em um podcast recente que há poucos indicativos de startups focadas em ambientes de RL. Wu observou que o espaço é muito competitivo, mas também ressaltou que a pesquisa em IA evolui tão rapidamente que é difícil atender bem às necessidades dos laboratórios.
Andrej Karpathy, investidor na Prime Intellect – que já apontou os ambientes de RL como um possível avanço revolucionário – também expressou cautela em relação ao setor de RL de maneira mais ampla. Em um post no X, ele manifestou preocupação sobre até que ponto o aprendizado por reforço poderá extrair mais avanços da IA.
“Sou otimista em relação aos ambientes e às interações agentivas, mas sou bem cauteloso com o aprendizado por reforço especificamente”, concluiu Karpathy.
