A startup de edição de vídeo da Web Runway, com sede em Nova York, apresenta o Gen-2, um novo modelo de texto para vídeo.
A Runway introduziu pela primeira vez seu modelo Gen-1 em fevereiro, que pode dar aos vídeos existentes uma nova aparência usando apenas prompts de texto. Por exemplo, ele transforma uma cena filmada de forma realista em um mundo de desenhos animados que mantém as proporções e os movimentos da cena original.
Isso funciona para pessoas e ambientes, e em um alto nível de abstração: por exemplo, Gen-1 pode transformar vários notebooks em pé ao lado do outro em um horizonte usando apenas prompts de texto. Todos os recursos da Gen-1 estão incluídos no novo modelo Gen-2 da Runway.
Runway lança modelo de texto para vídeo
Gen-2, no entanto, leva um passo adiante, gerando cenas de vídeo inteiramente novas a partir de um único prompt de texto. A seguinte cena de vídeo de três segundos foi gerada pela Runway com o alerta “Imagens aéreas de drones de uma cordilheira”. O áudio ainda não está incluído, mas de acordo com a Runway, ele está sendo pesquisado.
Além disso, o Runway pode gerar sequências de vídeo curtas a partir de uma imagem ou da combinação de uma imagem e uma descrição de texto. À esquerda na captura de tela, você pode ver a imagem de entrada. Ele é convertido em uma curta animação de vídeo (à direita, ampliada na captura de tela). A cena de fundo e o ângulo da câmera mudam de acordo com o prompt de texto.
Bloomberg relata depois de uma demonstração de que a geração de vídeo acontece “em poucos minutos”. Mas os vídeos resultantes têm apenas segundos de duração e são um pouco agitados. Sequências de movimento em particular ainda são um desafio para o modelo. No entanto, as cenas geradas atendem ao conteúdo do prompt.
Distribuição via lista de espera no Discord
A Runway está disponibilizando a Geração 2 para testadores selecionados que se inscreverem em uma lista de espera via Discord. O lançamento está em andamento. A Gen-1 atualmente tem “milhares de usuários”, de acordo com a Runway. A startup visa evitar possíveis abusos do sistema de vídeo, como conteúdo violento, combinando mecanismos de IA com a ajuda de moderadores humanos.
Além do Runway, o Google está trabalhando em um sistema de IA de texto para vídeo em HD, e a Meta demonstrou o Make-a-Video, que também transforma texto em vídeos curtos. O Google tem outro modelo em andamento, o Dreamix, especificamente para edição de texto em vídeo. Se os rápidos avanços na geração de imagens de IA se traduzirem em vídeo, os bancos de dados de vídeo em breve poderão ter que repensar seu modelo de negócios.