Se você pensou que o DeepFakes, a IA que troca rostos de celebridades em qualquer vídeo (como pornografia), era assustador esperar até ver o que o DensePose do Facebook pode fazer.

A divisão de pesquisa de IA (FAIR) do Facebook revelou na semana passada os detalhes de uma rede neural que mapeia imagens 2D para humanos em vídeos. Basicamente, a equipe ensinou a IA a adicionar “skins” às pessoas em vídeos – em tempo real.

Se você já quis viver em um mundo onde, com o apertar de um botão, você poderia transformar todas as pessoas em qualquer vídeo em um Wookie (por exemplo), esta é uma notícia fabulosa para você.

Embora tenha havido outras redes neurais de mapeamento de imagens 2D, esta é a primeira a juntar tudo em tempo real e efetivamente “conectar os pontos” sem um sensor de profundidade. Foi criado pelos pesquisadores da FAIR Natalia Neverova e Iasonas Kokkinos com o pesquisador da INRIA Rıza Alp Güler.

Ele usa uma rede neural convolucional que foi construída primeiro criando um conjunto de dados anotados por humanos e depois treinando uma IA de “professor”. No total, 50.000 imagens de partes do corpo humano foram examinadas por humanos que, em seguida, anotaram mais de 5 milhões de pontos de dados que forneceram os dados de treinamento para a rede.

exemplo do Body Swapping AI do Facebook

Uma vez que o sistema entendeu como os seres humanos vêem outros seres humanos, ele estava pronto para treinar seu “aprendiz” como ver as pessoas da mesma maneira.

O resultado final é uma IA que usa uma imagem RGB 2D como entrada e a aplica a qualquer número de humanos em um vídeo. Em vez de colocar o rosto de uma celebridade no corpo de outra pessoa, você pode mudar a aparência das pessoas em um vídeo como se estivesse editando uma skin de Minecraft.

É claro que existem aplicações para isso que vão muito além de transformar celebridades e personagens de filmes em nus ou Wookies.

Uma IA com a capacidade de isolar vários humanos em um vídeo e aplicar mapas de imagem 2D direcionados pode ser extraordinariamente útil para a aplicação da lei. Ele poderia, potencialmente, ser adaptado para extrair todos os seres humanos de imagens de uma multidão e criar um índice pesquisável por, por exemplo, linguagem corporal ou padrões de movimento suspeitos.

De acordo com o white paper da equipe, a IA também está de olho na indústria de jogos. Com um pouco mais de trabalho e otimização, poderia um dia ser um substituto para a modelagem de personagens em videogames. E pode ser a chave para criar personagens realistas de realidade aumentada para as pessoas interagirem em tempo real.

E DensePose é um gamer no coração: ele roda em uma GPU GTX 1080. Mas não está pronto para enganar o olho humano, pois, de acordo com os desenvolvedores, atualmente “opera a 20-26 quadros por segundo para uma imagem de 240 × 320 ou 4-5 quadros por segundo para uma imagem de 800 × 1100”.

Ainda assim, tudo se soma a um mundo onde os empregos de Meryl Streep e Nicholas Cage podem em breve estar tão em risco quanto os dos caixas do McDonalds.