Com a Darwin-Gödel Machine (DGM), a Sakana AI apresenta um sistema de IA que se aprimora iterativamente por meio da auto-modificação e da exploração sem limites
A startup japonesa Sakana AI e pesquisadores da University of British Columbia desenvolveram a Darwin-Gödel Machine (DGM), uma estrutura de IA projetada para evoluir por conta própria. Em vez de otimizar para objetivos fixos, o DGM se inspira na evolução biológica e na descoberta científica, utilizando uma busca sem limites e a auto-modificação contínua para gerar novas soluções.

O DGM aprimora agentes de codificação por meio de um ciclo de auto-modificação, avaliação, seleção e arquivamento – imitando processos evolutivos para impulsionar o desenvolvimento contínuo. No cerne desse sistema está um processo iterativo, em que um agente de IA reescreve seu próprio código Python para produzir novas versões de si mesmo, cada uma com diferentes ferramentas, fluxos de trabalho ou estratégias.
Essas variantes são avaliadas em múltiplas etapas por meio de benchmarks como o SWE-bench e o Polyglot, que testam a capacidade dos agentes em resolver tarefas reais de programação. Os agentes com melhor desempenho são arquivados, formando a base para iterações futuras.

Visualizações acompanham a evolução dos agentes de codificação, demonstrando como a auto-modificação e a criação de novos agentes (à esquerda) conduzem a ganhos de desempenho constantes ao longo do tempo (à direita). Essa busca sem limites possibilita uma gama mais ampla de soluções e resultados superiores.
A auto-modificação leva a grandes ganhos de desempenho
Em testes, o desempenho do DGM no benchmark SWE-bench aumentou de 20% para 50%. O SWE-bench avalia o quão bem os sistemas de IA conseguem resolver problemas reais do GitHub utilizando Python.
No benchmark multilíngue Polyglot, que mede o desempenho em diversas linguagens de programação, o DGM evoluiu de 14,2% para 30,7%, superando agentes de código aberto, como o Aider. Mesmo com esses ganhos, a pontuação máxima de 50% do DGM no SWE-bench ainda fica um pouco abaixo do melhor agente open-source, o OpenHands + CodeAct v2.1, que alcançou 51%, além de alguns sistemas proprietários que tiveram desempenho ainda melhor.

O sistema completo do DGM supera tanto os agentes de referência quanto as versões que não incluem a busca sem limites ou o auto-aprimoramento. Ao longo do processo, o sistema desenvolveu, de forma autônoma, diversas funcionalidades importantes — como novas ferramentas de edição, uma etapa de verificação de patch, a capacidade de avaliar múltiplas propostas de solução e uma memória de erros para evitar a repetição de equívocos.
Essas atualizações beneficiaram não apenas o modelo original Claude 3.5 Sonnet, mas também foram transferidas para outros modelos fundamentais, como o Claude 3.7 e o o3‑mini. Ganhos semelhantes de desempenho foram observados ao operar em outras linguagens de programação, incluindo Rust, C++ e Go.
Permitir que agentes reescrevam seu próprio código introduz novos riscos, pois modificações recursivas podem tornar o comportamento imprevisível. Para contornar esse desafio, o DGM utiliza técnicas de isolamento (sandboxing), limites rigorosos para modificações e rastreabilidade completa para cada alteração. Além disso, a Sakana AI encara esse ciclo de auto-modificação como um meio de melhorar a segurança. Em um dos testes, o DGM aprendeu a detectar alucinações ao utilizar ferramentas externas e desenvolveu contra-medidas, como sinalizar quando um agente afirmava falsamente ter executado testes unitários. Entretanto, também foram observados casos em que o sistema removia deliberadamente esses marcadores de detecção, exemplificando um tipo de ‘hacking de objetivos', no qual a avaliação é manipulada sem que o problema seja efetivamente solucionado.
Altos custos e usabilidade limitada — por ora
Executar o DGM não sai barato. Uma única execução de 80 iterações no SWE-bench levou duas semanas e gerou cerca de US$ 22.000 em custos de API. A maior parte desses gastos decorre da estrutura em loop, das avaliações em etapas e da geração paralela de novos agentes a cada ciclo. Até que os modelos fundamentais se tornem significativamente mais eficientes, as aplicações práticas do DGM permanecerão limitadas.
Por enquanto, as auto-modificações do sistema têm se concentrado em ferramentas e fluxos de trabalho. Mudanças mais profundas — envolvendo o processo de treinamento ou o próprio modelo — ainda estão em desenvolvimento. A Sakana AI espera que, com o tempo, o DGM possa servir como um modelo para IAs mais gerais e capazes de auto-aprimoramento.
Além desse desenvolvimento, a Sakana AI também explorou outras ideias inspiradas na natureza. Em um experimento separado, a empresa apresentou um conceito em que um modelo “pensa” em etapas discretas de tempo, de maneira similar ao processamento de informações no cérebro humano.
O código do sistema está disponível no GitHub.
