
O modelo atualizado de inteligência artificial para raciocínio da DeepSeek tem atraído grande atenção na comunidade de IA nesta semana. Entretanto, o laboratório chinês também lançou uma versão menor e “destilada” do seu novo R1, denominada DeepSeek-R1-0528-Qwen3-8B, que, segundo a empresa, supera modelos de tamanho comparável em determinados benchmarks.
Essa versão, construída com base no modelo Qwen3-8B lançado pela Alibaba em maio, apresentou desempenho superior ao do modelo Gemini 2.5 Flash do Google no AIME 2025, uma coleção de desafios matemáticos complexos.
Além disso, o DeepSeek-R1-0528-Qwen3-8B alcança desempenho próximo ao do recentemente lançado modelo Phi 4 reasoning plus da Microsoft em outro teste de habilidades matemáticas, o HMMT.
Modelos destilados, como este, costumam ser menos capazes do que suas versões completas. No entanto, sua grande vantagem é a menor demanda computacional. Segundo a plataforma NodeShift, o Qwen3-8B necessita de uma GPU com 40GB a 80GB de RAM para funcionar (como, por exemplo, uma Nvidia H100), enquanto o novo R1 em sua versão integral requer cerca de uma dúzia de GPUs de 80GB.
A DeepSeek treinou o DeepSeek-R1-0528-Qwen3-8B utilizando textos gerados pelo modelo atualizado R1 para ajustar o Qwen3-8B. Em uma página dedicada na plataforma Hugging Face, o modelo é descrito como ideal tanto para a pesquisa acadêmica em modelos de raciocínio quanto para o desenvolvimento industrial focado em soluções de menor escala.
Disponibilizado sob a licença MIT permissiva, o DeepSeek-R1-0528-Qwen3-8B pode ser utilizado comercialmente sem restrições. Diversos provedores já oferecem o modelo por meio de API.