O novo modelo Sora 2 da OpenAI aproxima o vídeo gerado por IA do uso mainstream ao trazer física mais realista, controle aprimorado e, pela primeira vez, áudio de alta qualidade. O lançamento também inclui um aplicativo para iOS, desenvolvido para compartilhar vídeos gerados por IA com amigos.

No interior da OpenAI, o Sora 2 é visto como uma atualização significativa. O modelo original foi considerado o “momento GPT-1 para vídeo” – uma prova de conceito inicial com limites claros. Em contrapartida, o Sora 2 é descrito como o “momento GPT-3.5” para vídeo generativo, atingindo o patamar em que a tecnologia se torna utilizável, semelhante ao avanço que os modelos de linguagem proporcionaram alguns anos atrás.

Ainda não há informações oficiais sobre especificações técnicas como resolução ou duração máxima dos vídeos, mas os clipes demonstrativos aparentam rodar em 720p e 30 FPS, com duração de aproximadamente cinco a dez segundos.

O grande avanço do Sora 2 reside na sua capacidade de simular processos físicos complexos. A OpenAI afirma que o modelo é capaz de lidar com acrobacias – como cambalhotas com pranchas de stand up paddle ou manobras ginásticas – com uma precisão que confere realismo, inclusive na simulação de comportamentos como o quique de uma bola de basquete na tabela, evidenciando um melhor raciocínio físico.

Embora o movimento do jogador de basquete nem sempre seja fisicamente exato, a bola rebate corretamente na tabela, demonstrando que o modelo, apesar de ocasionais erros, possui uma compreensão notável da física.

Controle, Consistência e Som

Segundo a OpenAI, o Sora 2 é capaz de seguir instruções complexas e de múltiplas etapas através de diversas cenas sem perder o fio da narrativa. Ele suporta uma variedade de estilos visuais – dos fotorealistas aos cinematográficos e até ao estilo anime – e, pela primeira vez, gera ruídos de fundo, diálogos e efeitos sonoros com realismo impressionante. Assim como o Veo 3 do Google, o Sora 2 busca manter a sincronia entre imagem e áudio.

Uma nova funcionalidade permite aos usuários se inserirem nos vídeos criados. Ao gravar sua voz e aparência apenas uma vez, é possível criar participações (“cameos”) que surgem em qualquer cena, mantendo a identidade visual e sonora. Animais e objetos também podem ser incorporados, e o vídeo de demonstração contou com a participação do CEO da OpenAI, Sam Altman.

A OpenAI ressalta que os usuários mantêm controle total sobre suas participações, podendo autorizar apenas pessoas específicas a utilizá-las e visualizar todos os vídeos – inclusive os rascunhos – nos quais aparecem. O acesso pode ser revogado ou a participação, excluída, a qualquer momento.

Proteções adicionais foram implementadas para menores de idade, incluindo controles mais rigorosos, menor visibilidade e limites de segurança padrão. Embora deepfakes de figuras públicas sejam tecnicamente possíveis, a OpenAI informa que esses recursos são bloqueados, a menos que a pessoa opte por permitir.

O Sora 2 está sendo lançado através de um novo aplicativo para iOS, permitindo que os usuários criem vídeos, remixem conteúdos de terceiros e explorem um feed personalizado. Inicialmente disponível por convite nos Estados Unidos e Canadá, há planos para expandir para outros países em breve. Nessa fase, o uso do Sora 2 será gratuito, com o que a OpenAI descreve como “limites generosos”.

O feed destaca vídeos das pessoas com as quais você interage e clipes com alto potencial para remix, com recomendações baseadas nos modelos de linguagem da OpenAI, que podem ser ajustadas por meio de comandos textuais. A empresa enfatiza que o aplicativo foi desenvolvido para incentivar a criação, em vez de simplesmente prolongar o tempo de visualização, conforme evidenciado em sua própria “Filosofia do Feed”.

Para acessar o modelo Sora 2 Pro aprimorado, que oferece vídeos de “qualidade superior”, é necessário um código de convite para o site Sora.com. A OpenAI também informa que uma API está a caminho, e mais demonstrações podem ser conferidas na transmissão ao vivo do anúncio do Sora 2.