Meta's Code World Model: Compreensão e Geração de Código em um Único Modelo
O Code World Model (CWM) da Meta foi desenvolvido não apenas para gerar código, mas também para entender como esse código é executado em um computador. Conforme explicam os pesquisadores da Meta, “para dominar a programação, é necessário entender não apenas a aparência do código, mas o que ele faz quando executado”. Esse tipo de raciocínio é essencial para uma verdadeira compreensão de programas, que vai muito além da simples repetição de padrões.
O CWM atua como um “depurador neural”, capaz de simular o comportamento de um programa antes mesmo de sua execução. O modelo consegue prever se um programa será concluído ou ficará preso em um loop infinito. Em testes utilizando o benchmark HaltEval da Meta, o CWM atingiu uma precisão de 94%.
O modelo aborda problemas de programação por meio de raciocínio, geração de código e testes sistemáticos das soluções. Além disso, o CWM é capaz de trabalhar de trás para frente: a partir de uma descrição breve do que um programa deve fazer, ele simula sua execução e gera o código correspondente. Em diversos exemplos, o modelo reconstrói funções a partir dos requisitos e dos resultados esperados, mesmo sem ter visto o código original.
O CWM também analisa a complexidade dos algoritmos, estimando o tempo de execução para diferentes tamanhos de entrada. No benchmark BigOBench, o modelo ficou em segundo lugar na previsão de complexidade de tempo, superando outros modelos open-source de tamanho similar com 32 bilhões de parâmetros.
Treinado com mais de 120 milhões de execuções de programas em Python, o CWM acompanha, passo a passo, as alterações nas variáveis. Os pesquisadores chamam esses registros de “rastros de execução”. Durante o treinamento, o modelo observou tanto o código quanto o estado de todas as variáveis locais após cada linha, aprendendo de forma inovadora a semântica das linguagens de programação.
Para garantir um treinamento realista, a equipe criou mais de 35.000 containers Docker executáveis a partir de projetos do GitHub. Cada container era um ambiente de desenvolvimento pronto para uso, permitindo que código e testes fossem executados sem configurações adicionais.
O treinamento do CWM ocorreu em três fases: inicialmente, o modelo aprendeu os fundamentos da programação com 8 trilhões de tokens; em seguida, foi treinado na execução de código com 5 trilhões de tokens; e, por fim, enfrentou tarefas complexas com aprendizado por reforço em quatro ambientes, abrangendo engenharia de software, programação competitiva e raciocínio matemático.
Resultados dos Benchmarks
No teste SWE-bench Verified, voltado para habilidades de engenharia de software, o modelo com 32 bilhões de parâmetros obteve 65,8% de acerto em tarefas com escalonamento no tempo de teste e 53,9% na versão básica, superando muitos modelos open-source menores. Entretanto, modelos maiores, como o Qwen3-Coder com até 480 bilhões de parâmetros, ainda lideram essa categoria.
Além disso, o CWM alcança 68,6% no LiveCodeBench, 96,6% no Math-500 e 76% na Olimpíada Matemática AIME 2024. No CruxEval Output, que avalia a compreensão de código, o modelo atinge 94,3% em modo de raciocínio.
Disponível para Pesquisa
A Meta lançou o CWM como um modelo open-source sob licença de pesquisa não comercial, disponibilizando tanto o modelo final quanto os pontos de verificação intermediários por meio do Hugging Face. O modelo de 32 bilhões de parâmetros pode ser executado em uma única Nvidia H100 com 80 GB de memória e suporta janelas de contexto de até 131.000 tokens.
A Meta enfatiza que o CWM é um modelo focado exclusivamente em pesquisa, com ênfase em programação e raciocínio matemático, não tendo sido ajustado para chats ou uso em produção.


