Midjourney lança seu primeiro modelo de vídeo, permitindo transformar imagens em clipes animados curtos
Após meses de especulação, o Midjourney lançou seu primeiro modelo de vídeo – um movimento que a empresa descreve como um marco inicial rumo a sistemas de IA capazes de simular mundos 3D inteiros em tempo real.
A nova funcionalidade “Image-to-Video” permite que os usuários transformem qualquer imagem do Midjourney em um clipe animado curto. A animação é realizada por meio de um novo botão “Animate” na interface web do Midjourney. Os usuários podem optar por um modo automático, em que o sistema determina o movimento, ou por um modo manual, onde descrevem como a animação deve se desenvolver.
Existem duas configurações principais: “Baixo movimento” funciona melhor para cenas com câmeras estáveis e movimentos lentos, enquanto “Alto movimento” anima tanto a câmera quanto o objeto de forma mais agressiva – embora, segundo o Midjourney, isso possa resultar em movimentos menos precisos em alguns casos.
Cada vídeo pode ser estendido por aproximadamente quatro segundos, até um total de quatro extensões. Além disso, os usuários podem ajustar o comando original que gerou a imagem a cada extensão.
Imagens criadas fora do Midjourney também podem ser animadas; basta arrastá-las para a barra de comandos e defini-las como o “Start Frame”. Em seguida, descreve-se, por meio de um comando textual, o movimento desejado.
A geração de vídeo custa cerca de oito vezes mais que a criação de uma imagem
A funcionalidade de vídeo está disponível, por ora, exclusivamente na interface web. Cada tarefa de criação de vídeo custa cerca de oito vezes mais que a tarefa de criação de imagem e gera quatro clipes de cinco segundos. Na prática, isso equivale aproximadamente a uma imagem para cada segundo de vídeo. O Midjourney afirma que esse custo é cerca de 25 vezes menor do que o de serviços concorrentes.
Para assinantes do plano “Pro” ou superior, o Midjourney está testando um “Modo Relax de Vídeo”, que possibilita a geração de vídeos sem consumir os minutos de processamento rápido, o que pode reduzir o custo por tarefa. A empresa informou que os preços serão ajustados nas próximas semanas com base na demanda e na carga dos servidores.
O Midjourney descreve esse modelo de vídeo como uma etapa intermediária necessária. O plano é, no futuro, combinar modelos de vídeo, elementos 3D e processamento em tempo real em uma única plataforma. Lições aprendidas na construção do modelo de vídeo também estão sendo aplicadas às ferramentas de imagens já existentes.
Competição e pressão legal
No campo dos vídeos gerados por IA, o novo modelo Veo 3 do Google tem sido amplamente reconhecido como um dos principais concorrentes. O Veo 3 é capaz de gerar vídeos diretamente a partir de comandos de texto, sem necessitar de uma imagem inicial, e ainda adiciona vozes e efeitos sonoros, destacando-se no cenário atual da IA para vídeo.
Enquanto isso, Disney e Universal entraram com uma ação judicial conjunta contra o Midjourney, alegando que o gerador de imagens da empresa cria imagens não autorizadas de personagens com marcas registradas, como Darth Vader e os Minions. A queixa, apresentada no Tribunal Distrital dos Estados Unidos na Califórnia, acusa o Midjourney de copiar repetidamente material protegido por direitos autorais, mesmo após alertas prévios.
Ambos os estúdios buscam indenizações, um julgamento com júri e uma ordem para bloquear o uso futuro de personagens protegidos. Disputas similares envolvendo direitos autorais e o Midjourney remontam a 2023. Até o momento, o Midjourney não se pronunciou publicamente, e não se sabe exatamente quais dados de vídeo foram utilizados para treinar o novo modelo.
