
Atualização – Lançamento com Precisão FP8 (23 de setembro de 2025)
A Alibaba adicionou dois novos modelos à linha Qwen3-Next, ambos baseados na precisão FP8. O Qwen3-Next-80B-A3B-Instruct-FP8 e o Qwen3-Next-80B-A3B-Thinking-FP8 utilizam o formato FP8 (ponto flutuante de 8 bits), projetado para aumentar a velocidade de processamento. Estes modelos funcionam de imediato com frameworks como Transformers, vLLM e SGLang.
Orientados para cenários onde a rapidez é fundamental – como a execução de serviços de IA em tempo real – os modelos FP8 apresentam um equilíbrio robusto entre desempenho bruto e economia de energia, com apenas uma pequena concessão na precisão das respostas. Ambas as versões já estão disponíveis no Hugging Face e no ModelScope. Enquanto o modelo Instruct é direcionado para tarefas gerais de chatbot e assistentes virtuais, o modelo Thinking é ajustado para operações que exigem maior capacidade de raciocínio.
Artigo Original – Arquitetura MoE Personalizada (14 de setembro de 2025)
A Alibaba lançou um novo modelo de linguagem, o Qwen3-Next, que se baseia em uma arquitetura personalizada de mistura de especialistas (MoE). Segundo a empresa, o modelo opera muito mais rápido que seus antecessores, sem comprometer o desempenho.
Enquanto o modelo anterior, o Qwen3, utilizava 128 especialistas, ativando 8 deles a cada etapa de inferência, o Qwen3-Next expande essa camada para 512 especialistas, acionando apenas 10, além de um especialista compartilhado. Essa configuração, de acordo com a Alibaba, permite uma velocidade mais de 10 vezes superior à do Qwen3-32B, especialmente ao se trabalhar com entradas extensas, com mais de 32.000 tokens.
A nova arquitetura também incorpora ajustes que estabilizam o treinamento, evitando problemas como a ativação desigual dos especialistas, instabilidade numérica e erros de inicialização. Entre os aprimoramentos, destacam-se a inicialização normalizada para os parâmetros do roteador e a regulação de saída nas camadas de atenção.
Além do modelo base, foram lançadas duas versões especializadas: a Qwen3-Next-80B-A3B-Instruct, voltada para tarefas de uso geral, e a Qwen3-Next-80B-A3B-Thinking, direcionada a desafios que exigem forte capacidade de raciocínio. A Alibaba ressalta que, apesar de ser menor, o modelo Instruct apresenta desempenho quase equivalente ao seu carro-chefe Qwen3-235B-A22B-Instruct quando se trata de contextos extensos (até 256.000 tokens). Por sua vez, o modelo Thinking supera, em diversos benchmarks, o Gemini 2.5 Flash Thinking da Google e se aproxima dos principais índices do Qwen3-235B-A22B-Thinking da própria Alibaba.
Os modelos estão disponíveis no Hugging Face, no ModelScope e no catálogo de APIs da Nvidia. Para operações em servidores privados, recomenda-se o uso de frameworks especializados como SGLang ou vLLM. Atualmente, as janelas de contexto são de até 256.000 tokens e, com técnicas avançadas, podem chegar a até um milhão de tokens.

Resumo
- A Alibaba lançou o Qwen3-Next, um novo modelo de linguagem com uma arquitetura personalizada de mistura de especialistas, que opera mais de 10 vezes mais rápido que o Qwen3-32B em entradas extensas, sem perder desempenho.
- O modelo expande para 512 especialistas, ativando apenas 10, além de um especialista compartilhado, e incorpora ajustes como inicialização normalizada do roteador e regulação de saída para estabilizar o treinamento.
- Foram também apresentadas duas versões especializadas: o Qwen3-Next-80B-A3B-Instruct, que rivaliza com o Qwen3-235B em contextos extensos, e o Qwen3-Next-80B-A3B-Thinking, que supera o Gemini 2.5 Flash Thinking da Google em diversos benchmarks.