Alibaba revela Qwen 3, uma família de modelos de raciocínio de IA “híbridos”
A empresa chinesa de tecnologia Alibaba anunciou na segunda-feira o Qwen 3, uma família de modelos de inteligência artificial que, segundo a companhia, equipara-se e, em alguns casos, supera os melhores modelos disponíveis da Google e da OpenAI.
A maioria dos modelos já está – ou estará em breve – disponível para download sob uma licença “aberta” por meio da plataforma de desenvolvimento de IA Hugging Face e GitHub. Eles variam de 0,6 bilhão de parâmetros a 235 bilhões de parâmetros. Parâmetros correspondem aproximadamente às habilidades de resolução de problemas dos modelos, e aqueles com maior quantidade tendem a apresentar desempenho superior.
O surgimento de séries de modelos originadas na China, como o Qwen, aumentou a pressão em laboratórios americanos, como a OpenAI, para oferecer tecnologias de IA mais avançadas. Essa evolução também motivou formuladores de políticas a implementarem restrições que limitam a capacidade das empresas chinesas de acessar os chips necessários para treinar os modelos.
De acordo com a Alibaba, os modelos Qwen 3 são “híbridos” no sentido de que podem demorar para “raciocinar” problemas complexos ou responder rapidamente a solicitações mais simples. Esse raciocínio permite que os modelos verifiquem efetivamente suas próprias informações, de forma similar ao que ocorre em outros sistemas avançados, embora isso implique em maior latência.
“Integramos de forma harmoniosa os modos de pensamento e não pensamento, oferecendo aos usuários a flexibilidade de controlar o orçamento de raciocínio. Esse design possibilita aos usuários configurar orçamentos específicos para cada tarefa com maior facilidade”, afirmaram a equipe do Qwen em um blog post.
Os modelos Qwen 3 oferecem suporte a 119 idiomas e foram treinados com um conjunto de dados que engloba quase 36 trilhões de tokens. Tokens são as unidades brutas de dados processados pelo modelo; 1 milhão de tokens equivale a aproximadamente 750 mil palavras. Segundo a Alibaba, o treinamento do Qwen 3 utilizou uma combinação de livros didáticos, pares de perguntas e respostas, trechos de código, dados gerados por IA e outros materiais.
Essas melhorias, entre outras, impulsionaram significativamente o desempenho do Qwen 3 em comparação com o seu predecessor, o Qwen 2. Em plataformas de competições de programação, o maior modelo da família – o Qwen-3-235B-A22B – supera, ainda que de forma modesta, modelos concorrentes de empresas como OpenAI e Google. Esse modelo também se destaca em benchmarks desafiadores, como o AIME, que avalia matemática, e o BFCL, que testa a capacidade de “raciocinar” informações.
No momento, o Qwen-3-235B-A22B não está disponível para o público.
O maior modelo público da família, o Qwen3-32B, mantém sua competitividade frente a diversos modelos proprietários e de código aberto, incluindo o R1 do laboratório de IA DeepSeek, da China. O Qwen3-32B supera o modelo O1 da OpenAI em vários testes, contando inclusive com um benchmark de acurácia denominado LiveBench.
A Alibaba destaca que o Qwen 3 “se destaca” nas capacidades de chamada de ferramentas, bem como em seguir instruções e reproduzir formatos de dados específicos. Além dos modelos disponíveis para download, o Qwen 3 pode ser acessado através de provedores de nuvem, como Fireworks AI e Hyperbolic.
Tuhin Srivastava, cofundador e CEO do provedor de nuvem de IA Baseten, ressaltou que o Qwen 3 representa uma nova etapa na evolução dos modelos abertos, que vêm acompanhando os sistemas de código fechado. Ele afirmou: “Os Estados Unidos estão intensificando as restrições à venda de chips para a China e à aquisição desses componentes, mas modelos como o Qwen 3 – que estão na vanguarda e são abertos – sem dúvida serão utilizados no mercado interno. Isso reflete a realidade de que as empresas estão tanto desenvolvendo suas próprias ferramentas quanto adquirindo soluções prontas de provedores de modelos fechados.”