Rednote lança seu primeiro LLM open-source com arquitetura Mixture-of-Experts
A empresa de mídias sociais Rednote lançou seu primeiro grande modelo de linguagem open-source. O sistema Mixture-of-Experts (MoE), denominado dots.llm1, foi projetado para igualar o desempenho de modelos concorrentes a uma fração do custo.
De acordo com o relatório técnico da Rednote, o dots.llm1 utiliza 14 bilhões de parâmetros ativos de um total de 142 bilhões. A arquitetura MoE divide o modelo em 128 módulos especialistas, mas apenas os seis melhores são ativados para cada token, além de dois que permanecem sempre ativos. Essa abordagem seletiva visa economizar recursos computacionais sem sacrificar a qualidade.
A Rednote afirma ganhos significativos em eficiência. Treinar o dots.llm1 com um trilhão de tokens exigiu apenas 130 mil horas de GPU, em comparação com 340 mil para o Qwen2.5-72B. No geral, o processo completo de pré-treinamento levou 1,46 milhão de horas de GPU para o dots.llm1, enquanto o Qwen2.5-72B precisou de 6,12 milhões – cerca de quatro vezes mais. Apesar disso, a empresa destaca que os modelos entregam resultados similares.
O dots.llm1 equipara o desempenho do Qwen2.5-72B enquanto utiliza apenas um quinto dos parâmetros ativos. Os gráficos de referência mostram, por exemplo, a comparação entre modelos MoE e arquiteturas densas.
Os benchmarks indicam que o dots.llm1 tem desempenho especialmente bom em tarefas na língua chinesa. Em testes como o C-Eval (que mede o conhecimento abrangente do chinês) e o CMMLU (uma variante chinesa do MMLU), o modelo supera tanto o Qwen2.5-72B quanto o Deepseek-V3.
Em benchmarks em inglês, o dots.llm1 fica um pouco atrás dos principais concorrentes. Nos testes MMLU e no mais desafiador MMLU-Pro, que avaliam conhecimento geral e raciocínio, o modelo apresenta desempenho ligeiramente inferior ao do Qwen2.5-72B.
No que diz respeito à matemática, o dots.llm1 apresenta resultados sólidos, mas geralmente fica atrás dos maiores modelos. Sua geração de código, entretanto, se destaca: no HumanEval – benchmark padrão de programação –, o dots.llm1 supera o Qwen2.5-72B e se mantém competitivo em outras tarefas de codificação.
Dados de treinamento: reais, não sintéticos
A Rednote treinou o modelo com 11,2 trilhões de tokens de alta qualidade, utilizando apenas textos reais da internet e nenhum dado sintético. O pipeline de dados segue três etapas: preparação dos documentos, filtragem baseada em regras e processamento via modelo. Duas inovações se destacam: um sistema que elimina elementos distrativos dos sites, como anúncios e barras de navegação, e a categorização automatizada dos conteúdos.
As vantagens do processo de filtragem de dados da Rednote são evidentes em vários benchmarks. A empresa desenvolveu um classificador com 200 categorias para otimizar a mistura dos dados de treinamento, aumentando a proporção de conteúdos factuais e baseados em conhecimento (como entradas de enciclopédias e artigos científicos) e reduzindo a presença de ficção e páginas altamente estruturadas, como listagens de produtos.
Open Source e ambições globais
A Rednote está disponibilizando checkpoints intermediários após cada trilhão de tokens de treinamento, proporcionando à comunidade de pesquisa uma visão aprofundada sobre a dinâmica do treinamento de grandes modelos. Os modelos estão disponíveis no Hugging Face sob a licença Apache 2.0, com o código-fonte no GitHub.
Com 300 milhões de usuários mensais, a Rednote ingressa em um mercado de IA chinês bastante competitivo, comandado por empresas como Alibaba, Baidu, Tencent, Bytedance e a emergente Deepseek. O novo modelo vem do Humane Intelligence Lab da Rednote, que se desmembrou da equipe de IA da empresa e está ampliando seu quadro de pesquisadores com formação nas áreas de humanas.
A empresa já está testando um assistente de pesquisa em IA chamado Diandian em sua plataforma, impulsionado pelo seu próprio modelo.
O aplicativo de mídia social chegou a fazer manchetes internacionais nesta primavera como possível refúgio para usuários americanos durante a ameaça de banimento do TikTok. Quando o banimento foi revogado, o interesse fora da China diminuiu.
Mesmo assim, a Rednote inaugurou seu primeiro escritório fora da China continental em Hong Kong, em 7 de junho, e tem planos para uma expansão internacional ainda maior. Segundo a Bloomberg, sua avaliação alcançou US$ 26 bilhões este ano, superando o pico observado durante a pandemia, com uma oferta pública inicial (IPO) prevista para o final de 2025.
