A startup de IA HeyGen revelou uma ferramenta que pode traduzir vídeos de até cinco minutos de duração em diferentes idiomas. O software também clona a voz da pessoa no vídeo e ajusta os movimentos labiais de acordo.

Em um teste feito pelo usuário do Twitter Jon Finger, a tradução funcionou perfeitamente, apesar do barulho de fundo de uma rua movimentada. No vídeo editado, os sons de distração são filtrados.

A voz sintética em uma linguagem diferente lembra muito a original, embora ainda soe ligeiramente robótica ou mecânica. Também é notável como a entonação é fielmente reproduzida.

O fato de os movimentos labiais terem sido alterados pela IA é pouco visível a olho nu. HeyGen faz outro ajuste na faixa de vídeo, no entanto, porque o rosto parece muito mais brilhante após a tradução do que no clipe original.

Como falante nativo, posso confirmar que a tradução alemã é um tanto monótona, mas definitivamente autêntica. Se eu não soubesse que era uma tradução de IA, poderia achar a entonação incomum, mas não antinatural.

O vídeo de demonstração oficial apresenta o popular YouTuber de tecnologia Marques Brownlee com uma voz espanhola e o CEO da Apple Tim Cook com uma voz indiana.

Beta: entrada de dez idiomas, saída de oito idiomas

A ferramenta “Video Translate” dentro das ofertas experimentais do HeyGen Labs está atualmente em fase beta aberta. No lançamento, ele suporta inglês, espanhol, francês, chinês, alemão, italiano, português, holandês, hindi e japonês como idiomas de entrada. No entanto, ele só pode traduzir para inglês, espanhol, francês, hindi, italiano, alemão, polonês e português. “Muitos mais” idiomas serão adicionados nas próximas semanas.

Beta: entrada de dez idiomas, saída de oito idiomas

Além dos requisitos técnicos, como duração mínima de 30 segundos, tipos de arquivos MP4, Quicktime e Webm e resolução entre 480 x 480 pixels e 1920 x 1920 pixels, a HeyGen fornece outras dicas para obter o melhor resultado possível.

Por exemplo, apenas o rosto de uma pessoa deve ser visível de um ângulo em cada cena de vídeo. Se houver ruído de fundo ou música no vídeo, a tradução limpa é mais difícil.

Ganhe dois minutos grátis e pague a partir de US$ 29 por mês

HeyGen – anteriormente conhecido como Movio.la – oferece aos usuários dois créditos gratuitos após a inscrição, que podem ser usados para editar ou criar até dois minutos de vídeo.

Outros 15 créditos estão disponíveis a partir de US$ 29 por mês e podem ser usados em todas as ofertas de software baseadas em navegador da HeyGen. Além do recurso de tradução de vídeo, o foco principal da HeyGen tem sido em avatares virtuais de IA.

A ideia de sincronizar voz e lábios não é nova, mas está causando alvoroço, especialmente na indústria cinematográfica, e temores existenciais entre os dubladores. A HeyGen está disponibilizando essa tecnologia não apenas para grandes estúdios de cinema com orçamentos enormes, mas também para empresas menores e usuários domésticos.

Em 2021, por exemplo, uma startup israelense ganhou as manchetes com tal serviço. No entanto, nenhuma grande produção ainda foi lançada com dublagem de IA. No entanto, “Top Gun: Maverick” usou IA para trazer de volta a voz de Val Kilmer, então é justo dizer que a tecnologia está chegando aos filmes mainstream.