Alibaba revela Qwen3-Omni, um modelo de IA que processa texto, imagens, áudio e vídeo

A Alibaba apresentou o Qwen3-Omni, um modelo de IA multimodal nativo projetado para processar texto, imagens, áudio e vídeo em tempo real.

De acordo com a empresa, o Qwen3-Omni se destaca em 32 dos 36 benchmarks de áudio e vídeo, superando modelos consagrados como Gemini 2.5 Flash e GPT-4o em tarefas como compreensão da fala e geração de voz. Em áreas especializadas, seu desempenho se equipara a modelos desenvolvidos para um único tipo de entrada.

alibaba qwen3 omni teaser

O Qwen3-Omni oferece raciocínio aprimorado para tarefas complexas, suporta diálogos multilíngues, apresenta tempos de resposta rápidos – com apenas 234 ms de latência – e consegue transcrever até 30 minutos de áudio.

Embora a Alibaba não tenha divulgado um relatório técnico, publicações e resultados de testes fornecem alguns detalhes. Com 30 bilhões de parâmetros, o modelo utiliza uma arquitetura de mistura de especialistas, ativando três bilhões de parâmetros por inferência. O Qwen3-Omni processa entradas de áudio em 211 milissegundos e áudio combinado com vídeo em 507 milissegundos.

Considerando sua arquitetura relativamente compacta, é impressionante que o Qwen3-Omni consiga acompanhar modelos comerciais de ponta nos benchmarks escolhidos pela Alibaba. Entretanto, ainda é incerto se ele manterá consistentemente o desempenho de modelos como o GPT-4o ou o Gemini 2.5 Flash no uso cotidiano, visto que modelos menores frequentemente enfrentam desafios fora de ambientes controlados.

Arquitetura em duas partes para processamento em tempo real

O Qwen3-Omni utiliza um sistema em duas partes: o Thinker analisa a entrada e gera o texto, enquanto o Talker converte essa saída diretamente em fala. Ambos os componentes operam em paralelo para minimizar atrasos.

alibaba qwen3 omni architecture thinker talker scaled

Para a geração de saída em tempo real, o modelo produz áudio etapa por etapa, em vez de criar arquivos completos de uma só vez. Cada etapa de processamento é convertida imediatamente em voz, permitindo uma transmissão contínua. O codificador de áudio foi treinado com 20 milhões de horas de áudio, e ambos os componentes utilizam múltiplos subsistemas especializados em paralelo, garantindo alta performance e respostas rápidas.

Suporte abrangente de idiomas

O modelo processa texto em 119 idiomas, entende a linguagem falada em 19 e pode responder em 10. Além disso, é capaz de analisar e resumir até 30 minutos de áudio.

A Alibaba afirma que o Qwen3-Omni é treinado para apresentar desempenho consistente em todos os tipos de entrada suportados, sem comprometer nenhuma área, mesmo quando lida com múltiplas modalidades simultaneamente. Usuários podem ajustar o comportamento do modelo por meio de instruções especiais, como alterar o estilo ou a personalidade das respostas. O Qwen3-Omni também pode se conectar a ferramentas e serviços externos para executar tarefas mais complexas.

Modelo dedicado para descrições de áudio

A empresa também está lançando o Qwen3-Omni-30B-A3B-Captioner, um modelo separado projetado para a análise detalhada de conteúdos em áudio, como músicas. O objetivo é gerar descrições precisas com baixa taxa de erro, preenchendo uma lacuna existente no ecossistema de código aberto.

Alibaba Qwen3 OmniNativelyOmni ModalFoundationModels 419

O sistema de IA do Qwen3-Omni é capaz de gerar descrições detalhadas sobre gêneros e atmosferas de conteúdos em áudio. A Alibaba planeja aprimorar o reconhecimento de múltiplos locutores, adicionar reconhecimento de texto em vídeos e intensificar o aprendizado a partir da combinação de áudio e vídeo, além de expandir as capacidades de agentes autônomos.

O Qwen3-Omni está disponível por meio do Qwen Chat e como demonstração na Hugging Face. Desenvolvedores podem integrar o modelo em seus aplicativos utilizando a plataforma de API da Alibaba.

Além disso, há duas versões de código aberto disponíveis: o Qwen3-Omni-30B-A3B-Instruct, para seguimento de instruções, e o Qwen3-Omni-30B-A3B-Thinking, voltado para o raciocínio complexo.

Um vídeo demonstrativo exibe o Qwen3-Omni traduzindo um cardápio de restaurante em tempo real através de um dispositivo vestível, evidenciando a ambição da Alibaba de expandir sua atuação para mercados ocidentais.