O Open-Sora 2.0 iguala modelos competitivos de vídeo com IA com custos de treinamento 90% menores

A HPC-AI Tech desenvolveu um novo sistema de inteligência artificial para vídeos que atinge qualidade comercial com cerca de um décimo do custo típico de treinamento, utilizando novos métodos de compressão.

Embora os modelos de linguagem tenham se tornado cada vez mais eficientes, a inteligência artificial para vídeos ainda demanda recursos intensivos de GPU. O Open-Sora 2.0 adota uma abordagem diferente ao sacrificar parte da resolução para reduzir drasticamente as necessidades computacionais.

O artigo de pesquisa revela custos de treinamento de aproximadamente US$200.000 – cerca de um décimo do que requerem sistemas como Movie Gen ou Step-Video-T2V. Os testes indicam qualidade comparável a sistemas comerciais, como Runway Gen-3 Alpha e HunyuanVideo. Para o treinamento, foram utilizadas 224 GPUs Nvidia H200.

Comparação de custos de treinamento

Comparação de custo: o Open-Sora 2.0 exige aproximadamente US$200.000, enquanto o Movie Gen demanda cerca de US$2,5 milhões e o Step-Video-T2V, US$1 milhão.

O sistema alcança sua eficiência por meio de três fases de treinamento: inicia com vídeos de baixa resolução, especializa-se na conversão de imagem para vídeo e, por fim, realiza ajustes finos para atingir resoluções mais altas. A equipe também otimizou os recursos ao incorporar modelos de imagem pré-treinados, como o Flux.

No centro do sistema está o autoencoder Video DC-AE, que oferece taxas de compressão superiores aos métodos existentes. Essa inovação torna o treinamento 5,2 vezes mais rápido e aumenta a velocidade de geração dos vídeos em mais de dez vezes.

Relação de compressão do autoencoder

Uma compressão mais alta gera uma saída um pouco menos detalhada, mas possibilita uma velocidade de geração de vídeo substancialmente maior.

Sistema de código aberto desafia vídeos comerciais com IA

O Open-Sora 2.0 é capaz de gerar vídeos a partir de descrições textuais e imagens únicas, incluindo um recurso denominado “motion score” que permite controlar a intensidade dos movimentos nos clipes produzidos.

Efeito do motion score na geração de vídeo

Valores mais altos de motion score resultam em movimentos de câmera mais dinâmicos e aumento na atividade das cenas.

O sistema apresenta limitações notáveis: os vídeos podem atingir, no máximo, 768×768 pixels de resolução e ter duração de até cinco segundos (128 frames). Para comparação, o Sora da OpenAI – que compartilha apenas o nome com este projeto – é capaz de gerar vídeos em 1080p com duração de até 20 segundos.

Testes demonstram que o sistema opera em nível quase comercial em métricas-chave, como qualidade visual, precisão na correspondência dos prompts e movimentação. Notavelmente, a pontuação VBench do Open-Sora 2.0 está apenas 0,69% atrás da do Sora da OpenAI, reduzindo significativamente a diferença de 4,52% observada na versão anterior.

Comparação de pontuação VBench

O Open-Sora 2.0 demonstra melhorias substanciais em relação à sua versão anterior, aproximando-se da qualidade dos sistemas comerciais de vídeo com IA.

O Open-Sora já está disponível como sistema de código aberto no GitHub. Assim como outros modelos de vídeo com IA, ele ainda apresenta desafios com artefatos ocasionais e movimentos que desafiam as leis da física. Mais exemplos podem ser conferidos na página oficial do projeto, hospedada pela própria equipe desenvolvedora.

A geração de vídeos com inteligência artificial tornou-se um campo cada vez mais competitivo, com empresas chinesas liderando grande parte do desenvolvimento. Novos sistemas são lançados quase semanalmente, incluindo projetos de código aberto como o Genmo Mochi 1 e o MiniMax Video-01. Embora esses modelos apresentem, geralmente, melhorias modestas em benchmarks, nenhum atingiu um avanço significativo na qualidade geral dos vídeos.

As estratégias de eficiência de custos do Open-Sora 2.0 remetem ao “momento Deepseek” observado nos modelos de linguagem, quando métodos aprimorados de treinamento possibilitaram que sistemas de código aberto alcançassem desempenho em nível comercial a custos reduzidos. Essa mudança pode impactar a precificação em todo o setor de vídeo com IA, onde serviços como o modelo mais recente do Google atualmente custam cerca de 0,50 centavos por segundo devido às intensas demandas computacionais.

No entanto, a diferença de desempenho entre os sistemas de vídeo com IA de código aberto e os comerciais continua mais acentuada do que a vista em modelos de linguagem, já que os líderes da indústria persistem na busca por soluções para desafios técnicos fundamentais.