Atualização 26 de março de 2025
A Alibaba apresentou seu mais novo modelo de IA multimodal, o Qwen2.5-VL-32B, lançado sob a licença Apache 2.0. Testes preliminares indicam que o modelo supera concorrentes maiores, como Gemma 3-27B e Mistral Small 3.1 24B. Em alguns testes, ele chega a superar o próprio Qwen2-VL-72B da Alibaba e versões anteriores do GPT-4o da OpenAI, embora não a versão atualmente lançada.
O modelo obteve as melhores pontuações no MMMU (Compreensão Multimodal de Máquinas), que avalia o entendimento de diferentes tipos de mídia, e no MathVista, que testa o raciocínio matemático a partir de imagens. O MM-MT-Bench, que mede a qualidade da interação, demonstra melhorias significativas em relação à versão anterior. Esses avanços se estendem também às tarefas exclusivamente textuais.
O desenvolvedor Simon Willison testou o Qwen2.5-VL-32B em um Mac com 64GB de RAM, e seus testes mostraram que o modelo é capaz de oferecer descrições detalhadas e bem estruturadas de mapas costeiros complexos, interpretando com precisão linhas de profundidade e características geográficas.
Usuários de Apple Silicon podem escolher entre diversas versões otimizadas do modelo, incluindo variantes de 4 bits, 6 bits, 8 bits e bf16, o que o torna acessível em diferentes configurações de hardware.
A equipe do Qwen planeja focar no desenvolvimento de processos de raciocínio mais longos e eficazes para tarefas visuais complexas, dando continuidade ao trabalho iniciado com o QVQ, seu primeiro modelo multimodal com capacidade de raciocínio lançado no final de 2024.
Alibaba afirma que o novo modelo Qwen2.5-VL é um “agente visual” útil
A Alibaba adicionou um modelo de linguagem visual multimodal à sua série Qwen2.5, marcando mais um passo na estratégia da empresa chinesa para competir no mercado comercial de IA.
Com base no modelo open source Qwen2-VL, lançado no outono de 2024, a nova versão promete um melhor manuseio de diversos tipos de dados, incluindo textos, imagens e vídeos de longa duração. A equipe ressalta avanços notáveis no tratamento de diagramas, ícones, gráficos e layouts. O modelo está disponível em três tamanhos: 3, 7 e 72 bilhões de parâmetros.
Essas melhorias também possibilitam que o modelo seja usado como assistente visual. Em diversas demonstrações, a Alibaba apresenta o Qwen2.5 analisando conteúdos de tela e fornecendo instruções para tarefas como reserva de passagens aéreas, consulta de previsões do tempo e navegação por interfaces complexas, como a do Gimp.
Em uma demonstração, o Qwen2.5-VL auxilia na reserva de uma passagem aérea com base no ponto de partida e destino.
Em outra, o modelo ajuda a acessar a previsão do tempo para Manchester, no Reino Unido.
O Qwen2.5-VL também se destaca na compreensão de interfaces de usuário mais complexas, identificando botões relevantes e planejando fluxos de trabalho. Embora não seja um modelo de agente especializado, sua capacidade de análise pode torná-lo uma base valiosa para sistemas operacionais similares a agentes autônomos.
Qwen2.5 supera o GPT-4o e o Claude 3.5 Sonnet em benchmarks
O modelo é capaz de identificar objetos específicos e seus componentes — por exemplo, determinar se um motociclista está utilizando capacete. Ao processar documentos como faturas e formulários, ele consegue estruturar as informações em formatos como JSON, facilitando sua reutilização.
De acordo com a Alibaba, a versão maior, Qwen2.5-VL-72B, apresenta desempenho comparável ao do GPT-4o, do Claude 3.5 Sonnet e do Gemini 2.0 Flash em diversos benchmarks, chegando a superar esses modelos em áreas como compreensão de documentos e assistência visual sem treinamento especializado.
As versões menores, Qwen2.5-VL-7B-Instruct e Qwen2.5-VL-3B, também demonstram avanços significativos em relação ao GPT-4o-Mini e à versão anterior do Qwen2-VL em muitas tarefas.
Planos para um modelo omnimodal semelhante ao GPT-4o
Olhando para o futuro, a equipe do Qwen pretende aprimorar as capacidades de resolução de problemas e de raciocínio dos modelos, além de adicionar suporte para mais tipos de entrada, como áudio. O objetivo final é desenvolver um modelo de IA capaz de lidar com qualquer tipo de entrada ou tarefa. Um artigo detalhado sobre a arquitetura e o processo de treinamento do modelo já está em desenvolvimento.
Os modelos Qwen2.5 VL estão disponíveis como open source através do GitHub, Hugging Face e ModelScope, embora algumas restrições para uso comercial se apliquem. Devido às regulamentações chinesas, esses modelos evitam discutir certos tópicos considerados sensíveis pelas autoridades.
A empresa também expandiu recentemente a série Qwen2.5 para incluir um modelo que suporta janelas de contexto de até um milhão de tokens.