Dados vazados expõem uma máquina de censura por IA chinesa
Uma reclamação sobre a pobreza nas zonas rurais da China. Um relatório sobre um membro corrupto do Partido Comunista. Um pedido de socorro diante de policiais corruptos que extorquem empresários.
Estes são apenas alguns dos 133.000 exemplos alimentados em um sofisticado modelo de linguagem, desenvolvido para sinalizar automaticamente qualquer conteúdo considerado sensível pelo governo chinês.
Uma base de dados vazada, revelada pelo TechCrunch, demonstra que a China desenvolveu um sistema de IA que potencializa sua já formidável máquina de censura, estendendo seu alcance muito além de tabus tradicionais, como o massacre na Praça Tiananmen.
O sistema é direcionado, principalmente, para censurar os cidadãos chineses na internet, mas pode ter outras aplicações, como o aprimoramento da extensa censura presente em modelos de IA desenvolvidos na China.
Esta foto, tirada em 4 de junho de 2019, mostra a bandeira chinesa atrás de arame farpado em um complexo habitacional em Yengisar, ao sul de Kashgar, na região ocidental de Xinjiang. Créditos da Imagem: Greg Baker / AFP / Getty Images
Xiao Qiang, pesquisador da UC Berkeley que estuda a censura na China e examinou esse conjunto de dados, afirmou que há “evidências claras” de que o governo chinês ou seus afiliados pretendem utilizar modelos de linguagem para aprimorar os mecanismos de repressão.
“Ao contrário dos métodos tradicionais de censura, que se baseiam em trabalho humano para filtrar palavras-chave e realizar revisões manuais, um modelo treinado com tais instruções melhoraria significativamente a eficiência e a precisão no controle das informações promovido pelo Estado”, afirmou Qiang.
Isso reforça as evidências de que regimes autoritários estão rapidamente adotando as tecnologias mais avançadas de IA. Em fevereiro, por exemplo, a OpenAI afirmou ter detectado diversas entidades chinesas utilizando modelos de linguagem para monitorar postagens anti-governo e difamar dissidentes.
A Embaixada da China em Washington, D.C. afirmou, por meio de um comunicado (veja documento), que se opõe a “ataques infundados e difamações contra a China” e que o país atribui grande importância ao desenvolvimento de uma IA ética.
Dados encontrados à vista
O conjunto de dados foi descoberto pelo pesquisador de segurança NetAskari, que compartilhou uma amostra após encontrá-lo armazenado em um banco de dados Elasticsearch desprotegido, hospedado em um servidor da Baidu.
Isso não indica envolvimento direto de nenhuma empresa — diversas organizações utilizam esses provedores para armazenar seus dados.
Não há indicação clara de quem criou o conjunto, mas os registros mostram que os dados são recentes, com as entradas mais novas datando de dezembro de 2024.
Um modelo de linguagem para detectar a dissidência
Utilizando uma linguagem surpreendentemente semelhante à forma como os usuários interagem com o ChatGPT, o criador do sistema determina, por meio de um modelo de linguagem não identificado, se um conteúdo está relacionado a temas sensíveis envolvendo política, vida social e assuntos militares. Esse conteúdo é considerado de “mais alta prioridade” e precisa ser imediatamente sinalizado.
Questões como poluição, escândalos na segurança alimentar, fraudes financeiras e disputas trabalhistas estão entre os temas de alta prioridade, pois frequentemente desencadeiam protestos públicos, como os protestos anti-poluição em Shifang, ocorridos em 2012.
Qualquer forma de “sátira política” é explicitamente visada. Por exemplo, se alguém utilizar analogias históricas para criticar “figuras políticas atuais”, isso deve ser flagrado de imediato, assim como qualquer menção à “política de Taiwan”. Questões militares também são amplamente rastreadas, abrangendo desde relatos de movimentações e exercícios militares até informações sobre armamentos.
Um trecho do conjunto de dados pode ser visto abaixo. O código exibido faz referência a tokens de prompt e a modelos de linguagem, confirmando que o sistema utiliza uma IA para executar suas instruções.
Dentro dos dados de treinamento
Dessa vasta coleção de 133.000 exemplos que o modelo deve avaliar para fins de censura, o TechCrunch reuniu 10 exemplos representativos de conteúdo.
Temas que podem provocar inquietação social são recorrentes. Um desses exemplos é uma publicação de um empresário que denuncia policiais locais corruptos extorquindo empreendedores — um problema crescente na China, à medida que sua economia enfrenta desafios.
Outro conteúdo lamenta a pobreza nas áreas rurais chinesas, descrevendo cidades decadentes onde restam apenas idosos e crianças. Também há uma reportagem que relata a expulsão de um funcionário local pelo Partido Comunista Chinês, acusado de corrupção grave e de acreditar em “superstições” em vez do marxismo.
O material abrange extensivamente informações relativas a Taiwan e questões militares, como análises sobre as capacidades militares de Taiwan e detalhes de um novo caça chinês. A palavra “台湾” (Taiwan) aparece mais de 15.000 vezes nos dados, conforme apontou uma pesquisa.
Até críticas sutis parecem estar sob vigilância. Um dos trechos inclui uma anedota sobre a efemeridade do poder, que utiliza o popular ditado chinês “quando a árvore cai, os macacos se dispersam”.
Transições de poder são temas particularmente delicados na China, devido ao seu sistema político autoritário.
Desenvolvido para o “trabalho de opinião pública”
Embora o conjunto de dados não identifique seus criadores, ele informa que foi desenvolvido para o “trabalho de opinião pública”, o que indica fortemente que foi concebido para atender aos objetivos do governo chinês, conforme explicou um especialista.
Michael Caster, gerente do programa para a Ásia da organização Article 19, ressaltou que o “trabalho de opinião pública” é coordenado por um poderoso órgão regulador do governo, a Administração do Ciberespaço da China (CAC), e geralmente está relacionado a ações de censura e propaganda.
O objetivo final é garantir que as narrativas oficiais sejam preservadas na internet, eliminando-se visões alternativas. O presidente chinês Xi Jinping já chegou a descrever a internet como a “linha de frente” do “trabalho de opinião pública” do Partido Comunista Chinês.
A repressão está se tornando mais inteligente
O conjunto de dados analisado é a evidência mais recente de que governos autoritários estão utilizando a IA para fins repressivos.
Um relatório divulgado recentemente pela OpenAI revelou que um ator não identificado, possivelmente operando a partir da China, usou uma IA generativa para monitorar conversas em redes sociais — especialmente aquelas que defendem protestos em favor dos direitos humanos — e encaminhá-las ao governo chinês.
A OpenAI também constatou que essa tecnologia estava sendo empregada para gerar comentários fortemente críticos a uma conhecida dissidente chinesa, Cai Xia.
Tradicionalmente, os métodos de censura na China dependem de algoritmos básicos que bloqueiam automaticamente conteúdos contendo termos proibidos como “massacre de Tiananmen” ou “Xi Jinping”, conforme relatado por diversos usuários em suas primeiras experiências com o DeepSeek.
No entanto, tecnologias mais avançadas de IA, como os modelos de linguagem, podem aprimorar a eficiência da censura ao identificar críticas sutis em larga escala. Alguns sistemas de IA ainda têm a capacidade de evoluir continuamente à medida que processam um volume cada vez maior de dados.
“Acho fundamental destacar como a censura orientada por IA está evoluindo, tornando o controle estatal sobre o discurso público ainda mais sofisticado, especialmente num momento em que modelos de IA chineses, como o DeepSeek, estão ganhando notoriedade”, afirmou Xiao, o pesquisador da Berkeley.