Ferramentas de codificação com IA podem deixar os desenvolvedores mais lentos, mesmo que pareçam mais rápidos

ai developer slowdown

Um novo estudo constatou que desenvolvedores experientes de código aberto, ao utilizarem ferramentas de codificação com inteligência artificial, acabam trabalhando 19% mais devagar na execução de tarefas reais, mesmo acreditando estar mais rápidos.

A lacuna na percepção: o que parece rápido, na verdade é lento

Pesquisadores do METR realizaram um ensaio randomizado no início de 2025 para analisar o impacto dos avançados recursos de IA na produtividade de desenvolvedores experientes. O estudo acompanhou 16 profissionais enquanto eles resolviam 246 tarefas extraídas de seus projetos de código aberto – projetos estes que demandam alto grau de complexidade. Antes de iniciarem os testes, os desenvolvedores previam que a IA os tornaria 24% mais rápidos.

Cada tarefa foi atribuída aleatoriamente a um dos dois grupos: um grupo de controle, trabalhando sem auxílio de IA generativa, e um grupo experimental, que utilizava assistentes de IA – predominantemente o Cursor Pro, equipado com modelos avançados como Claude 3.5 e Claude 3.7 Sonnet.

ai code study method

O METR utilizou um ensaio randomizado (RCT), considerado amplamente como o padrão ouro para mensurar relações de causa e efeito, para isolar o real impacto das ferramentas de IA na produtividade dos desenvolvedores. Cada tela foi gravada e o tempo de execução de cada tarefa, devidamente registrado. Para ajustar as variações de complexidade, os pesquisadores utilizaram um método estatístico que levava em conta as estimativas de tempo fornecidas pelos próprios desenvolvedores. Essa abordagem possibilitou identificar quanto do tempo de trabalho foi efetivamente alterado pelo uso da IA, independentemente da dificuldade da tarefa.

metr ai speedup result scaled 1

O ponto crucial do estudo foi que, embora os desenvolvedores esperassem economizar tempo e tivessem a impressão de que a IA os tornava 20% mais rápidos mesmo após concluir as tarefas, os dados demonstraram o contrário – um acréscimo médio de 19% no tempo de execução.

Impacto no mundo real exige novos métodos de mensuração

De acordo com o METR, esses resultados evidenciam a necessidade de se criar novas abordagens para avaliar os efeitos práticos da IA generativa. Os benchmarks convencionais, como o SWE-Bench ou o RE-Bench, geralmente se concentram em tarefas isoladas e descontextualizadas, o que pode levar a uma visão distorcida do desempenho das IAs. Em contraste, ensaios randomizados que testam tarefas reais em ambientes práticos oferecem uma perspectiva mais completa, ilustrando de forma precisa como as ferramentas de IA podem tanto ajudar quanto atrapalhar os desenvolvedores em seu dia a dia.

coding study AI time saving e1752234100515

Em entrevistas, um desenvolvedor de IA apontou que os resultados do estudo fazem sentido, especialmente em projetos maduros e complexos, com requisitos de alta qualidade e múltiplas regras implícitas – característicos dos projetos de código aberto. Nesse contexto, o uso de ferramentas de IA pode demandar tempo adicional para explicações e verificações. Por outro lado, em projetos novos, de prototipagem rápida ou quando se trabalha com frameworks ainda não conhecidos, as ferramentas de IA podem aproveitar suas melhores características e, de fato, oferecer um suporte mais efetivo aos desenvolvedores.

Resumo

  • Um estudo randomizado do METR revelou que desenvolvedores experientes, ao utilizar ferramentas avançadas de IA, levaram 19% mais tempo para concluir tarefas reais de programação, contrariando suas expectativas de maior agilidade.
  • Pesquisadores destacaram que benchmarks tradicionais, como o SWE-Bench, podem não refletir com precisão as vantagens reais da IA na prática dos desenvolvedores.
  • Os autores defendem que novos métodos de avaliação são necessários, pois os testes atuais não consideram fluxos de trabalho, contextos e interações em equipe, o que pode distorcer a mensuração dos benefícios das ferramentas de IA.