MiniMax lançou o Hailuo 02, a segunda geração de seu modelo de IA para vídeos, trazendo melhorias significativas em desempenho e preço.

O novo modelo utiliza uma arquitetura chamada Noise-aware Compute Redistribution (NCR), que, segundo a MiniMax, aprimora a eficiência de treinamento e inferência em 2,5 vezes. Essa arquitetura trata sequências de vídeo longas de maneira diferenciada ao longo das fases de treinamento. No início, quando é introduzido um ruído artificial intenso nos dados, os vídeos são comprimidos ao máximo; posteriormente, com dados mais nítidos, o modelo os processa em resolução total.

MiniMax Hailuo 02 Noise aware Compute Redistribution

A MiniMax destaca a nova arquitetura NCR como o diferencial do Hailuo 02, embora ainda não tenham sido revelados detalhes técnicos. Comparado à versão anterior, o Hailuo 02 possui três vezes mais parâmetros e conta com quatro vezes mais dados de treinamento, além de melhorias na qualidade e diversidade dos dados, sem que a empresa divulgue números exatos sobre parâmetros ou tamanhos dos conjuntos de dados.

Segundo a MiniMax, o Hailuo 02 demonstra ganhos significativos no tratamento de solicitações complexas e na simulação de processos físicos, sendo atualmente o único modelo capaz de gerar com precisão cenas intricadas, como rotinas de ginástica.

O Hailuo 02 está disponível em três variantes:

  • 768p para vídeos de seis segundos
  • 768p para vídeos de dez segundos
  • 1080p para vídeos de seis segundos

Em desafios de benchmarks na arena de análise de vídeos gerados por IA, onde usuários avaliam as produções, o Hailuo 02 alcançou a segunda posição na categoria de imagem para vídeo, ficando logo atrás do Seedance 1.0, da Bytedance, e à frente do Veo 3 do Google. Vale ressaltar que a versão atual do Veo 3 não oferece suporte para áudio, um recurso bastante valorizado.

Em avaliações dos usuários, o Hailuo 02 supera o Google Veo 3, mesmo sendo este último capaz de gerar áudio de forma nativa. Desde o lançamento de sua versão demo, em agosto do ano passado, a plataforma Hailuo já foi responsável pela criação de mais de 3,7 bilhões de vídeos, demonstrando a ampla adesão dos criadores ao redor do mundo.

O modelo pode ser acessado por meio de interface web, aplicativo móvel ou via API. Para os usuários de API, a geração de um vídeo de seis segundos em 768p custa US$ 0,28, enquanto a versão em 1080p sai por US$ 0,49. Em comparação, produzir um vídeo de oito segundos em 1080p com o Google Veo 3 pode chegar a custar cerca de US$ 3, dependendo do plano contratado.

A MiniMax afirma que está trabalhando para melhorar a velocidade de geração, a estabilidade e incluir novos recursos além das atuais opções de texto para vídeo e imagem para vídeo. Enquanto isso, plataformas concorrentes, como a Runway, já oferecem recursos mais robustos, como acompanhamento de movimento na câmera.

O lançamento do Hailuo 02 faz parte da “MiniMax Week”, um evento de cinco dias durante o qual a startup chinesa também apresentou um modelo de linguagem de código aberto, o MiniMax-M1, acompanhado de contagem de parâmetros e documento técnico. Em contrapartida, os detalhes técnicos sobre a arquitetura de treinamento do Hailuo 02 permanecem confidenciais.