O novo MiMo-V2.5-Pro da Xiaomi mira o Claude Opus com codificação autônoma de longa duração
O MiMo-V2.5-Pro da Xiaomi conclui um compilador completo em menos de cinco horas e se aproxima do Claude Opus 4.6 da Anthropic em benchmarks de codificação, segundo testes internos. O modelo de peso aberto também consome significativamente menos tokens do que seus rivais ocidentais.
O MiMo-V2.5-Pro é um modelo de mistura de especialistas, ou seja, apenas parte do modelo é acionada para cada solicitação, ao invés de utilizar o sistema inteiro. Com 1,02 trilhão de parâmetros no total – dos quais 42 bilhões são ativos por requisição – a equipe MiMo desenvolveu esta versão especialmente para tarefas que podem durar horas e acumulam milhares de chamadas de ferramenta.

Áudio, imagem e texto são convertidos para um formato que o modelo de linguagem consegue entender por meio de seus próprios codificadores – três “tradutores” que alimentam o mesmo backbone. A janela de contexto atinge o limite do que é possível atualmente: a versão principal lida com até um milhão de tokens de uma vez, enquanto a versão base, sem re-treinamento, limita-se a 256 mil tokens.
Um compilador em uma tarde
A Xiaomi demonstra o maior avanço em relação à versão anterior por meio de três demonstrações. Na primeira, o modelo construiu um projeto completo de compilador a partir de um curso da Universidade de Pequim – uma tarefa que, normalmente, demandaria várias semanas de trabalho de um estudante de ciência da computação.

O MiMo-V2.5-Pro completou o processo em quatro fases ao longo de 4,3 horas, elevando a cobertura dos testes de 59% na primeira compilação até atingir 100%. Concluindo o projeto com 672 chamadas de ferramenta e marcando 233 pontos em 233 testes da bateria oculta, o modelo primeiro esboçou todo o pipeline como uma estrutura e, em seguida, avançou camada por camada. Na primeira execução, 137 dos 233 testes foram aprovados; numa fase posterior de refatoração, mesmo depois de introduzir uma regressão, o modelo conseguiu diagnosticar e corrigir o problema por conta própria.
Em uma segunda demonstração, o MiMo-V2.5-Pro criou um editor de vídeo desktop com aproximadamente 8.000 linhas de código a partir de apenas alguns comandos, operando de forma autônoma por 11,5 horas e efetuando cerca de 1.870 chamadas de ferramenta.
Na terceira demonstração, a Xiaomi conectou o modelo a um simulador de circuitos por meio do Claude Code e o desafiou a projetar um regulador de tensão. Em menos de uma hora, o resultado atendeu a todas as seis especificações técnicas de uma só vez, com quatro delas superando a primeira versão elaborada pelo modelo por aproximadamente uma ordem de magnitude.
Menos tokens, resultados comparáveis
A Xiaomi destaca o MiMo-V2.5-Pro principalmente por sua relação desempenho/consumo de tokens. No benchmark interno ClawEval, o modelo alcança 64% utilizando cerca de 70 mil tokens por tarefa – uma redução de 40 a 60% no número de tokens em comparação com o Claude Opus 4.6, Gemini 3.1 Pro e GPT-5.4 para resultados semelhantes.

O MiMo-V2.5-Pro e o Claude Opus 4.6 ficam praticamente empatados no SWE-Bench Pro, enquanto o modelo da Xiaomi se destaca no Terminal-Bench 2.0. Em benchmarks de codificação, o MiMo-V2.5-Pro obteve pontuações de 78,9 no SWE-Bench Verified, 57,2 no SWE-Bench Pro e 68,4 no Terminal-Bench 2.0. No MiMo Coding Bench interno, registrou 73,7 pontos, aproximando-se do Claude Opus 4.6 (77,1) e ultrapassando o Gemini 3.1 Pro (67,8). Em tarefas gerais, atingiu 1.581 pontos Elo no GDPVal-AA e 72,9 no tau3-bench.
Os avanços são mais evidentes em trabalhos com contextos extensos. No benchmark GraphWalks da OpenAI, que exige a navegação por gráficos complexos de nós, o MiMo-V2-Pro anterior caía a zero com um milhão de tokens, enquanto o MiMo-V2.5-Pro mantém 0,37 em buscas em largura e 0,62 em consultas ao nó pai.
O modelo herda sua base técnica do seu predecessor, o MiMo-V2-Flash. Segundo a Xiaomi, a combinação de atenção local e global reduz em quase sete vezes a necessidade de memória para textos longos, e o mecanismo paralelo de previsão de tokens triplica a velocidade de saída. O pré-treinamento utilizou 27 trilhões de tokens, com a janela de contexto sendo expandida progressivamente até atingir um milhão de tokens.
No pós-treinamento, a Xiaomi adota uma configuração de professor-aluno na qual diversos modelos especializados – focados em áreas como matemática, segurança ou uso de ferramentas – são otimizados individualmente, e um único modelo aluno aprende com suas próprias tentativas sob a orientação de todos os especialistas, combinando essas habilidades em um único sistema.
Mais três modelos além do flagship
A Xiaomi está lançando, além do modelo Pro, mais três sistemas.
MiMo-V2.5: uma versão menor com 310 bilhões de parâmetros, dos quais 15 bilhões são ativos por solicitação. Este modelo trabalha com texto, imagens, vídeo e áudio diretamente e também suporta até um milhão de tokens de contexto. Treinado com aproximadamente 48 trilhões de tokens, alcança 87,7 no benchmark Video-MME, equiparando-se ao Gemini 3 Pro.
MiMo-V2.5-TTS: uma família composta por três variantes – uma com vozes predefinidas, outra que gera novas vozes a partir de descrições textuais e uma que clona vozes a partir de pequenos clipes de áudio. Os usuários podem ajustar a pronúncia inserindo tags de controle, como [crying] ou [whispers], diretamente no texto. Estes modelos estão disponíveis apenas por API na plataforma da Xiaomi e, atualmente, são gratuitos por tempo limitado.

MiMo-V2.5-ASR: o modelo de reconhecimento de fala que, além de ser aberto, opera em chinês e inglês. Segundo os benchmarks, ele lida também com dialetos chineses como Wu, Cantonês e Hokkien, além de permitir alternância de idioma no meio de frases e interpretar letras de músicas. No Open ASR Leaderboard, apresenta uma taxa média de erro de 5,73%.

O impulso aberto da China é uma questão de volume
Com este lançamento, a equipe MiMo da Xiaomi segue o caminho traçado no final de 2025: diversos modelos lançados simultaneamente, em sua maioria abertos e todos projetados para agentes de IA autônomos. A equipe aponta para um maior escalonamento do treinamento e para uma melhor compreensão das relações de longo alcance além de sentenças individuais como próximos passos.
Recentemente, a Xiaomi lançou um pacote completo composto por três modelos: MiMo-V2-Pro, MiMo-V2-Omni e MiMo-V2-TTS. O modelo Pro lançado anteriormente chegou a conquistar os primeiros lugares no ranking de uso do OpenRouter sob o codinome “Hunter Alpha”, com muitos presumindo inicialmente que se tratava de um novo modelo Deepseek.
O Deepseek também avançou: recentemente, a empresa lançou o Deepseek V4, atualmente o maior modelo aberto do mercado e que redefine os preços da concorrência. O MiMo-V2.5-Pro passa, assim, a integrar a corrida entre os provedores chineses de modelos de peso aberto – uma competição que cada vez mais se resume a quão econômico e por quanto tempo um modelo pode executar uma tarefa de forma autônoma.
