Por anos, ferramentas de edição de código como Cursor, Windsurf e o Copilot da GitHub foram o padrão para o desenvolvimento de software impulsionado por IA. Mas, à medida que a IA agentiva se torna mais poderosa e o vibe-coding ganha força, uma mudança sutil alterou a forma de interação dos sistemas de IA com o software. Em vez de atuarem diretamente no código, eles estão cada vez mais interagindo com o shell do sistema em que estão instalados. Trata-se de uma alteração significativa na maneira como o desenvolvimento de software com IA ocorre – e, apesar da discrição, pode ter implicações importantes para o futuro da área.
O terminal é mais conhecido como aquela tela em preto e branco que lembramos dos filmes hackers dos anos 90 – uma forma muito antiga de executar programas e manipular dados. Embora não ofereça o apelo visual dos editores de código modernos, trata-se de uma interface extremamente poderosa para aqueles que sabem usá-la. E, mesmo que agentes baseados em código consigam escrever e depurar programas, as ferramentas de terminal geralmente são necessárias para transformar o código em algo que realmente possa ser utilizado.
O sinal mais evidente dessa mudança para o terminal veio dos grandes laboratórios. Desde fevereiro, Anthropic, DeepMind e OpenAI lançaram ferramentas de codificação por linha de comando – respectivamente, Claude Code, Gemini CLI e CLI Codex – que já figuram entre os produtos mais populares dessas empresas. Essa alteração passou despercebida para muitos, pois seguem, em grande parte, a mesma identidade visual dos anteriores editores de código. Entretanto, por trás dos bastidores, ocorreram mudanças reais na forma como os agentes interagem com outros computadores, tanto online quanto offline. Alguns acreditam que essas transformações estão apenas começando.
“Nossa grande aposta é que existe um futuro em que 95% da interação entre LLM e computador ocorrerá por meio de uma interface semelhante a um terminal”, afirma Alex Shaw, co-criador do principal benchmark focado em terminais, o TerminalBench.
As ferramentas baseadas em terminal também estão ganhando destaque justamente quando as soluções centradas em código começam a apresentar instabilidades. O editor de código de IA Windsurf foi dilacerado por aquisições concorrentes, com executivos seniores sendo contratados pelo Google e a parte remanescente da empresa sendo adquirida pela Cognition – deixando o futuro do produto para consumidores cheio de incertezas.
Ao mesmo tempo, novas pesquisas sugerem que os programadores podem estar superestimando os ganhos de produtividade proporcionados pelas ferramentas convencionais. Um estudo da METR, que testou o Cursor Pro – principal concorrente do Windsurf –, constatou que, embora os desenvolvedores estimassem concluir tarefas de 20% a 30% mais rápido, o processo observado foi cerca de 20% mais lento. Em resumo, o assistente de código acabou custando mais tempo aos programadores.
Isso abriu uma oportunidade para empresas como a Warp, que atualmente lidera o ranking do TerminalBench. A Warp se apresenta como um “ambiente de desenvolvimento agentivo”, posicionando-se entre os programas IDE e ferramentas de linha de comando como o Claude Code. Mesmo assim, o fundador da Warp, Zach Lloyd, continua otimista quanto ao terminal, enxergando-o como a solução para problemas que estariam fora do alcance de um editor de código tradicional como o Cursor.
“O terminal ocupa um nível muito básico na pilha de desenvolvimento, portanto, é o lugar mais versátil para rodar agentes”, afirma Lloyd.
Para compreender como essa nova abordagem se diferencia, é útil observar os benchmarks utilizados para medi-la. A geração de ferramentas baseadas em código se concentrava em resolver issues do GitHub, alicerce do teste SWE-Bench. Cada problema no SWE-Bench é uma issue aberta – essencialmente, um trecho de código que não funciona. Os modelos iteram sobre o código até identificarem uma solução funcional, resolvendo o problema. Embora produtos integrados, como o Cursor, tenham desenvolvido abordagens mais sofisticadas para essa questão, o modelo GitHub/SWE-Bench continua a ser o núcleo da forma como essas ferramentas operam: partindo de código defeituoso e transformando-o em código funcional.
Já as ferramentas baseadas em terminal adotam uma visão mais abrangente, considerando o ambiente completo em que um programa está em execução. Isso envolve, além da codificação, tarefas mais voltadas ao DevOps, como configurar um servidor Git ou diagnosticar por que um script não é executado. Em um problema do TerminalBench, as instruções fornecem um programa de descompressão e um arquivo de texto-alvo, desafiando o agente a reengenheirar um algoritmo de compressão compatível. Em outro desafio, o agente é solicitado a compilar o kernel do Linux a partir do código-fonte, sem mencionar que será necessário fazer o download desse código. Resolver tais questões requer a mesma determinação obstinada de resolução de problemas que os programadores precisam ter.
“O que torna o TerminalBench desafiador não são apenas as perguntas que fazemos aos agentes, mas os ambientes nos quais os colocamos”, diz Shaw.
De forma crucial, essa nova abordagem implica resolver os problemas passo a passo – a mesma habilidade que torna a IA agentiva tão poderosa. No entanto, mesmo os modelos agentivos mais avançados ainda não conseguem lidar com todos esses ambientes. A Warp alcançou sua alta pontuação no TerminalBench ao resolver pouco mais da metade dos desafios, o que demonstra tanto o quão exigente é esse benchmark quanto o quanto ainda há a ser feito para liberar todo o potencial do terminal.
Ainda assim, Lloyd acredita que já chegamos a um ponto em que as ferramentas baseadas em terminal podem lidar de forma confiável com grande parte das tarefas não relacionadas à codificação enfrentadas pelos desenvolvedores – uma proposta de valor difícil de ignorar.
“Se você pensar no trabalho diário de configurar um novo projeto, identificar as dependências e torná-lo executável, a Warp praticamente consegue fazer tudo isso de forma autônoma. E, se não conseguir, ela informará o motivo”, conclui Lloyd.