Alibabas Wan2.5-Preview permite transformar fotos e comandos de texto em vídeos com áudio sincronizado
A Alibaba lançou o Wan2.5-Preview, um novo modelo de vídeo capaz de gerar clipes curtos com áudio sincronizado. O sistema combina texto, imagens, vídeo e áudio em uma única arquitetura, posicionando-o na mesma categoria do Veo 3 do Google. Detalhes sobre o funcionamento do modelo são escassos. A empresa menciona o uso de aprendizado por reforço com feedback humano, descrevendo o modelo como “um passo sólido […] na nossa jornada rumo a um World Model”. Não há informações técnicas detalhadas nem transparência sobre os dados de treinamento.
O Wan2.5-Preview gera vídeos de 10 segundos em resolução 1080p, com trilhas de áudio que podem incluir múltiplas vozes, música de fundo e efeitos sonoros. Em uma demonstração em vídeo, a Alibaba reuniu diversos clipes para exibir sua capacidade de geração de áudio. À primeira vista, o áudio e as imagens parecem sincronizados, mas uma análise mais atenta revela que as batidas e a música freqüentemente perdem a sincronização, e o modelo enfrenta dificuldades em manter a consistência dos rostos.
O sistema aceita como entrada texto, imagens ou áudio. Por exemplo, é possível enviar uma foto e usar um comando de texto para criar um vídeo com música compatível. A Alibaba destaca a “estética cinematográfica” e um “sistema de controle cinematográfico”.
Além disso, o Wan2.5-Preview oferece funcionalidades de geração e edição de imagens por meio do Wan.video. A ferramenta é capaz de produzir imagens fotorrealistas, explorar diversos estilos artísticos e criar diagramas. A edição é realizada por comandos de voz, como alterar cores ou combinar diferentes conceitos.

Acesso e Preços
Diferentemente dos modelos anteriores da Alibaba, o Wan2.5-Preview não é open source. A empresa não respondeu a solicitações para a divulgação do código, e não há indícios de que isso venha a mudar. O serviço está disponível no Wan.video por meio de assinaturas mensais a partir de US$ 6,50 ou via créditos no modelo pay-as-you-go. Dependendo do plano, cada clipe custa entre 13 e 25 centavos, enquanto a API é tarifada entre 5 e 15 centavos por segundo, valor consideravelmente inferior ao do Veo 3.
Como referência, o modelo anterior, Wan2.2, era open source sob a licença Apache 2.0 e conseguia gerar vídeos em 720p utilizando GPUs para consumidores, como a RTX 4090.
- A Alibaba lançou o Wan2.5-Preview, um modelo que gera vídeos com áudio sincronizado combinando texto, imagens, vídeo e áudio numa única saída.
- O modelo produz vídeos de 10 segundos em 1080p, embora ainda haja desafios na sincronização perfeita entre áudio e imagens, além da consistência dos rostos.
- O serviço não é open source e está disponível por assinatura no Wan.video ou via API, com preços competitivos em relação a soluções similares.