A pesquisa da Microsoft aponta que a autenticação de mídia por IA não funciona de forma confiável, mas novas leis assumem que ela funciona

Um novo relatório técnico da Microsoft avalia sistematicamente como distinguir mídias autênticas de conteúdo gerado por IA. Os resultados são preocupantes: nenhum método isolado é confiável por si só e, mesmo quando combinados, as abordagens têm seus limites. Ainda não está claro se a Microsoft implementará de fato suas recomendações.

A desinformação impulsionada por IA se espalha pela internet em ritmo acelerado. Imagens manipuladas e vídeos falsos têm sido usados para desencorajar ações de determinados grupos e influenciar opiniões. Nesse contexto, a Microsoft publicou um relatório técnico abrangente que examina, de maneira sistemática, como identificar mídias reais em meio a conteúdos sintéticos – destacando os pontos onde os métodos atuais falham.

O relatório, intitulado “Media Integrity and Authentication: Status, Directions, and Futures”, foi produzido no âmbito do programa LASER da Microsoft voltado para a segurança de longo prazo da IA, liderado pelo Cientista Chefe Eric Horvitz. Uma equipe multidisciplinar, envolvendo especialistas em IA, cibersegurança, ciências sociais, interação humano-computador, políticas públicas, operações e governança, passou vários meses avaliando três tecnologias principais: metadados de proveniência protegidos criptograficamente, marcas d'água invisíveis e impressões digitais baseadas em técnicas de soft-hash.

Cada uma das três abordagens apresenta sérias limitações

Esses três métodos abordam o problema por ângulos distintos. Os metadados de proveniência, baseados no padrão aberto C2PA, anexam informações assinadas criptograficamente a um arquivo – registrando quem o criou, quais ferramentas foram usadas e quais edições foram realizadas. Se alguém alterar esses dados posteriormente, a assinatura é comprometida e a falsificação se torna detectável.

Marcas d'água invisíveis incorporam informações diretamente no conteúdo da mídia de forma imperceptível aos olhos ou ouvidos humanos, permitindo que sobrevivam a diversos processos, como o upload em redes sociais. As impressões digitais, por sua vez, calculam uma espécie de código matemático a partir do conteúdo e o armazenam em um banco de dados. Ao verificar uma imagem ou vídeo posteriormente, esse código indica se ele corresponde a um original conhecido.

Contudo, segundo o relatório, cada método isoladamente possui fragilidades significativas. Os metadados de proveniência podem ser facilmente removidos – um simples print de tela já os elimina. As marcas d'água são baseadas em probabilidades, não alcançando uma confiabilidade de 100% e podendo tanto gerar alarmes falsos quanto deixar passar alterações. Já as impressões digitais sofrem com colisões de hash – quando arquivos diferentes produzem o mesmo código – além de demandarem altos custos de armazenamento. Outro ponto destacado é que, mesmo com metadados verificados, não se pode afirmar a veracidade do conteúdo, mas apenas que ele não foi alterado desde a sua assinatura.

Em conversa para uma conhecida publicação de tecnologia, Horvitz enfatizou a necessidade de deixar claro para os legisladores que o objetivo não é julgar o que é verdadeiro ou falso, mas desenvolver rótulos que indiquem a origem de determinado conteúdo.

Apenas 20 de 60 combinações alcançam alta confiabilidade

A equipe de pesquisa modelou 60 combinações diferentes dos três métodos e testou seu desempenho em cenários realistas de ataque. Os resultados revelaram que somente 20 dessas combinações atingem o que o relatório chama de “autenticação de alta confiança”. Para alcançar esse nível, é necessário ou um manifesto C2PA validado, com checksums que correspondam ao conteúdo real, ou uma marca d'água detectada que aponte para esse manifesto em armazenamento externo.

As 40 combinações restantes forneceram níveis de confiança mais baixos ou nenhuma conclusão confiável. Dessa forma, a Microsoft recomenda que as ferramentas de verificação pública exibam somente resultados de alta confiança, reservando sinais menos precisos, como possíveis correspondências de impressão digital, para acesso exclusivo de especialistas forenses.

Microsoft deepfake provenance verifizierung c2pa workflow

Ataques de reversão podem fazer falsos parecerem reais e conteúdo real parecer falso

O relatório detalha os chamados ataques de reversão – manipulações que invertem os sinais de autenticidade. Em um cenário, um invasor pega uma foto autêntica e faz edições mínimas utilizando uma ferramenta de IA. A imagem é corretamente assinada como “modificada por IA”, mas uma plataforma com lógica de exibição deficiente pode simplesmente rotulá-la como “gerada por IA”, sem indicar a extensão da alteração, desqualificando uma foto legítima.

Em outro cenário, um atacante gera uma imagem por IA, remove a marca d'água e o manifesto, e adiciona um manifesto forjado de câmera. Sem listas confiáveis de remetentes, uma ferramenta de verificação pode acabar sinalizando o conteúdo sintético como autêntico.

A recomendação é que as plataformas exibam sempre o escopo das edições ao mostrar as informações de proveniência, deixando claro onde ocorreram as alterações. Imagens de pré-visualização do conteúdo original também devem ser apresentadas, e redes de distribuição, como as sociais, devem receber detalhes completos do manifesto para que possam ser verificados por serviços especializados.

Microsoft deepfake provenance niedrige stufen

Dispositivos locais são o elo fraco na cadeia

Resultados realmente confiáveis só são possíveis quando a criação e a assinatura do conteúdo ocorrem em um ambiente seguro na nuvem, conforme enfatiza o relatório. Dispositivos locais – especialmente computadores convencionais – não oferecem proteção suficiente, já que administradores podem modificar programas e abusar das chaves criptográficas. Smartphones com Android e iOS apresentam uma resistência um pouco maior, pois conseguem diferenciar sistemas operacionais adulterados dos originais.

No caso de câmeras, a situação é variada. Modelos mais novos, como o Google Pixel 10, Nikon Z6 III e Canon EOS R1, já implementam o padrão C2PA, enquanto câmeras compactas básicas tendem a não dispor de chips seguros. A Microsoft recomenda o uso de enclaves de segurança de hardware – áreas isoladas dentro de um processador que protegem operações sensíveis, como a assinatura de conteúdo, contra acesso não autorizado – e a adoção da especificação C2PA versão 2.3 ou superior, que introduziu níveis de segurança para certificados de assinatura.

Detectores de IA ajudam, mas enfrentam um paradoxo fundamental

Ferramentas de detecção de deepfake baseadas em IA desempenham um papel suplementar, porém secundário, conforme o relatório. Detectores proprietários podem alcançar cerca de 95% de acurácia em cenários sem ataques adversariais direcionados, enquanto ferramentas de detecção gratuitas apresentaram desempenho inferior, com acurácia abaixo de 70% nos testes.

O relatório também aponta um paradoxo fundamental: quanto melhor o desempenho de um detector, maior a confiança depositada em seus resultados. Porém, os erros cometidos – especialmente a não detecção de falsificações – podem causar sérios danos justamente por serem altamente confiáveis.

Além disso, os detectores estão em uma corrida armamentista constante contra os atacantes, com pesquisas demonstrando que ataques sofisticados podem reduzir sua precisão para níveis inferiores a 30%.

Leis exigem o que a tecnologia ainda não é capaz de oferecer

O relatório analisa também a legislação de diversos países. A lei de transparência em IA da Califórnia, que entra em vigor em agosto de 2026, exige que os provedores de IA insiram tanto divulgações visíveis quanto ocultas em conteúdos gerados por IA, de forma “permanente ou extraordinariamente difícil de remover”, na medida do tecnicamente viável. O EU AI Act determina que conteúdos sintéticos sejam rotulados, de forma legível por máquina, como gerados por IA, sob pena de multas que podem chegar a três por cento da receita global ou 15 milhões de euros, o que for maior. Regulamentações similares já existem ou estão em desenvolvimento em países como China, Índia e Coreia do Sul.

A Microsoft alerta que alguns desses requisitos são tecnicamente impossíveis de serem atendidos. Marcas d'água visíveis podem ser removidas facilmente por pessoas com conhecimentos técnicos básicos, enquanto as invisíveis, mesmo com as melhores práticas atuais, podem ser eliminadas por atacantes habilidosos. Pesquisas recentes demonstram que edições de imagens baseadas em modelos generativos, que utilizam processos de difusão, podem comprometer até mesmo marcas d'água robustas. O lançamento precipitado de sistemas pouco confiáveis poderia minar a confiança pública em métodos de autenticação.

O relatório defende que as expectativas políticas devem ser elevadas gradualmente, acompanhando os avanços na pesquisa e no desenvolvimento de métodos técnicos amplamente aplicáveis.

A Microsoft quer moldar as regras, mas não se compromete a cumpri-las

Em entrevista para uma renomada publicação de tecnologia, Horvitz descreveu o trabalho como uma espécie de recomendação para autorregulação, ressaltando, ao mesmo tempo, o esforço da empresa em se consolidar como um provedor confiável. Segundo ele, a intenção é ser a escolha preferencial para quem busca compreender os acontecimentos no mundo.

Quando questionado sobre a possibilidade de implementar suas próprias recomendações em suas plataformas, Horvitz evitou compromissos. Segundo um comunicado, equipes de produto e executivos estão envolvidos no estudo, e as ações de desenvolvimento serão definidas com base nas descobertas apresentadas.

A Microsoft está no centro de um vasto ecossistema de IA, operando serviços que vão desde assistentes virtuais e plataformas de nuvem, até redes profissionais e investimentos significativos em grandes modelos de IA. Embora o relatório não apresente um compromisso vinculativo de implementação, especialistas apontam que a adoção ampla desse framework poderia dificultar significativamente a disseminação de conteúdos manipulados.