Na última sexta-feira, a OpenAI apresentou um novo sistema de codificação chamado Codex, projetado para executar tarefas de programação complexas a partir de comandos em linguagem natural. O Codex leva a OpenAI a integrar uma nova geração de ferramentas de codificação agentivas que está apenas começando a se formar.
Desde o Copilot inicial do GitHub até ferramentas contemporâneas como Cursor e Windsurf, a maioria dos assistentes de codificação com IA opera como uma forma excepcionalmente inteligente de autocompletar. Em geral, essas ferramentas residem em ambientes de desenvolvimento integrados, onde os usuários interagem diretamente com o código gerado pela inteligência artificial. A ideia de simplesmente designar uma tarefa e voltar quando ela estiver concluída ainda é, em grande parte, utópica.
Entretanto, essas novas ferramentas agentivas, lideradas por produtos como Devin, SWE-Agent, OpenHands e o já mencionado Codex da OpenAI, foram concebidas para funcionar sem que os usuários precisem visualizar o código. O objetivo é atuar como o gerente de uma equipe de engenharia, designando problemas através de sistemas corporativos – como Asana ou Slack – e verificando se uma solução foi alcançada.
Para os entusiastas de inteligências artificiais altamente capazes, essa representa a evolução lógica em uma progressão natural de automação que vem assumindo cada vez mais funções no desenvolvimento de software.
“No início, as pessoas simplesmente escreviam código pressionando cada tecla”, explica Kilian Lieret, pesquisador em Princeton e membro da equipe do SWE-Agent. “O GitHub Copilot foi o primeiro produto a oferecer um autocompletar real, que representa, de certa forma, a segunda etapa. Você continua totalmente no controle, mas às vezes pode optar por um atalho.”
O objetivo dos sistemas agentivos é ir além dos ambientes de desenvolvimento convencionais, apresentando aos agentes de codificação um problema e permitindo que eles o resolvam de forma autônoma. “Voltamos ao nível gerencial, onde simplesmente designo um relatório de bug e o bot tenta corrigi-lo completamente de forma autônoma”, afirma Lieret.
É uma meta ambiciosa, e até o momento os desafios têm sido notáveis.
Após o Devin ter sido disponibilizado no final de 2024, o produto recebeu críticas severas de comentaristas do YouTube – como esta e esta – além de uma avaliação mais ponderada de um dos primeiros clientes, reportada pela Answer.AI. A impressão geral entre os veteranos da codificação intuitiva foi de que, diante de tantos erros, supervisionar os modelos exige tanto trabalho quanto realizar a tarefa manualmente. (Embora o lançamento do Devin tenha sido um pouco turbulento, isso não impediu que investidores vislumbrassem seu potencial – em março, a empresa-mãe do Devin, Cognition AI, teria levantado centenas de milhões de dólares, alcançando uma avaliação de 4 bilhões de dólares, conforme noticiado pela Bloomberg.)
Mesmo os defensores da tecnologia alertam contra a adoção da codificação intuitiva sem supervisão, enxergando os novos agentes como elementos poderosos que ainda demandam um processo de desenvolvimento supervisionado por humanos.
“No momento, e imagino que isso continue no futuro próximo, um humano precisa intervir na revisão do código para analisar o que foi escrito”, afirma Robert Brennan, CEO da All Hands AI, responsável pelo OpenHands. “Já vi várias pessoas se complicarem ao aprovar automaticamente cada trecho de código gerado pelo agente. As coisas podem sair do controle muito rapidamente.”
As alucinações continuam sendo um problema recorrente. Brennan recorda um incidente no qual, ao ser questionado sobre uma API lançada após o corte dos dados de treinamento do agente do OpenHands, este fabricou detalhes de uma API que se encaixavam na descrição. A All Hands AI afirma que está desenvolvendo sistemas para identificar essas alucinações antes que causem danos, mas ainda não existe uma solução simples para o problema.
Talvez a melhor forma de medir o progresso da programação agentiva seja por meio dos rankings do SWE-Bench, onde desenvolvedores testam seus modelos contra um conjunto de problemas não resolvidos presentes em repositórios abertos do GitHub. Atualmente, o OpenHands ocupa o primeiro lugar no ranking verificado, solucionando 65,8% do conjunto de desafios. A OpenAI afirma que um dos modelos que alimenta o Codex, o codex-1, pode superar esse desempenho, alcançando uma pontuação de 72,1% em seu anúncio – embora essa pontuação tenha algumas ressalvas e não tenha sido verificada de forma independente.
A preocupação entre muitos profissionais da área de tecnologia é que índices elevados em benchmarks não se traduzem necessariamente em uma codificação agentiva verdadeiramente autônoma. Se os codificadores agentivos conseguem resolver apenas três de cada quatro problemas, será necessário um acompanhamento significativo por parte de desenvolvedores humanos – especialmente ao lidar com sistemas complexos que envolvem múltiplas etapas.
Como ocorre com a maioria das ferramentas de IA, a expectativa é que as melhorias nos modelos de base ocorram de forma constante, possibilitando que os sistemas de codificação agentiva evoluam para ferramentas de desenvolvimento confiáveis. Entretanto, encontrar maneiras de gerenciar as alucinações e outras questões de confiabilidade será crucial para atingir esse objetivo.
“Acredito que há algo semelhante a um efeito de barreira do som”, conclui Brennan. “A questão é: quanta confiança podemos transferir para os agentes, para que eles realmente aliviem parte da sua carga de trabalho no final do dia?”
