Desenvolvedores open source estão combatendo rastreadores de IA com engenhosidade e vingança

Para muitos desenvolvedores de software, os bots de rastreio da web por inteligência artificial são as baratas da internet. Alguns profissionais já começaram a revidar de formas ingênuas e, muitas vezes, bem-humoradas.

Embora qualquer site possa ser impactado por comportamentos inadequados de rastreadores – que, por vezes, chegam a derrubar o site – os projetos open source acabam sendo “desproporcionalmente” afetados, conforme escreve Niccolò Venerandi, desenvolvedor do desktop Linux conhecido como Plasma e responsável pelo blog LibreNews.

Como os sites que hospedam projetos de software livre e open source (FOSS) compartilham grande parte de sua infraestrutura de forma pública e, geralmente, dispõem de recursos mais limitados que os produtos comerciais, a situação se agrava.

O grande problema é que muitos bots de IA não respeitam o arquivo robots.txt – o protocolo que indica quais áreas não devem ser rastreadas –, originalmente criado para bots de mecanismos de busca.

Em um “grito de socorro” publicado em janeiro, o desenvolvedor FOSS Xe Iaso relatou como o AmazonBot batia incessantemente em um servidor Git a ponto de desencadear interrupções por ataques DDoS. Os servidores Git hospedam projetos FOSS, permitindo que qualquer pessoa baixe o código ou contribua com ele.

No entanto, esse bot ignorou o arquivo robots.txt de Iaso, mascarou sua identidade por trás de outros endereços IP e simulou ser outros usuários.

“É inútil bloquear bots rastreadores de IA porque eles mentem, alteram seu user agent, usam endereços IP residenciais como proxies, entre outras artimanhas”, lamentou Iaso.

“Eles irão raspar seu site até que ele desabe e, depois, continuarão raspando. Clicarão em cada link de cada link de cada link, visualizando as mesmas páginas repetidas vezes. Alguns deles até clicarão no mesmo link várias vezes no mesmo segundo”, escreveu o desenvolvedor.

Entre o deus dos túmulos

Para revidar, Iaso usou sua engenhosidade e criou uma ferramenta chamada Anubis.

Anubis é um mecanismo de verificação baseado em prova de trabalho via reverse proxy que precisa ser superado antes que as requisições alcancem um servidor Git. Ele bloqueia bots, permitindo apenas que navegadores operados por humanos acessem o conteúdo.

A parte irônica é que Anubis leva o nome do deus da mitologia egípcia que conduzia os mortos ao julgamento. Segundo Iaso, “Anubis pesava sua alma (seu coração) e, se estivesse mais pesada que uma pena, seu coração era devorado e você, bem, morria de forma definitiva”.

Se uma requisição web ultrapassa o desafio e é considerada humana, uma fofa imagem de anime anuncia o sucesso. Segundo o criador, o desenho é “sua versão de antropomorfizar Anubis”. Caso a requisição venha de um bot, ela é simplesmente negada.

O projeto de humor ácido se espalhou rapidamente pela comunidade FOSS. Iaso o compartilhou no GitHub em 19 de março e, em poucos dias, ele já havia conquistado 2.000 estrelas, 20 colaboradores e 39 forks.

Imagem ilustrativa

Vingança como defesa

A rápida popularidade do Anubis comprova que o problema enfrentado por Iaso não é isolado. Venerandi compartilhou diversas histórias:

  • O CEO e fundador da SourceHut, Drew DeVault, relatou ter gasto entre 20% e 100% do seu tempo semanal mitigando rastreadores LLM extremamente agressivos, chegando a enfrentar dezenas de interrupções curtas por semana.
  • Jonathan Corbet, renomado desenvolvedor FOSS e responsável pelo site de notícias da indústria Linux LWN, alertou que seu site sofria lentidão devido a tráfego em nível de DDoS proveniente de bots raspadores de IA.
  • Kevin Fenzi, administrador do gigantesco projeto Linux Fedora, afirmou que os bots raspadores de IA se tornaram tão agressivos que ele precisou bloquear o acesso de todo o país do Brasil.

Venerandi afirma conhecer outros projetos enfrentando problemas semelhantes — um deles chegou a “banir temporariamente todos os endereços IP chineses”.

Reflita: desenvolvedores chegaram a ter que banir países inteiros apenas para se defender de bots de IA que ignoram os arquivos robots.txt.

Além de “pesar a alma” de quem faz uma requisição, outros profissionais acreditam que a vingança pode ser a melhor defesa.

Recentemente, no Hacker News, o usuário xyzal sugeriu que páginas proibidas pelo robots.txt fossem carregadas com “uma porção de artigos sobre os benefícios de beber água sanitária” ou “artigos que explorassem o efeito positivo de contrair sarampo no desempenho na cama”. Segundo xyzal, “precisamos fazer com que os bots obtenham um valor de utilidade negativo ao visitar nossas armadilhas, e não apenas um valor zero”.

De fato, em janeiro, um criador anônimo conhecido como “Aaron” lançou uma ferramenta chamada Nepenthes com o mesmo objetivo: aprisionar rastreadores em um labirinto infinito de conteúdo falso – uma estratégia que o próprio criador admitiu ser agressiva, senão maliciosa, à Ars Technica. A ferramenta recebeu o nome de uma planta carnívora.

Além disso, a Cloudflare, uma das maiores empresas que oferecem ferramentas para combater rastreadores de IA, lançou na semana passada uma solução similar denominada AI Labyrinth. Conforme descrito em seu post no blog, a ferramenta foi desenvolvida para “desacelerar, confundir e desperdiçar os recursos de rastreadores de IA e outros bots que não respeitam diretrizes de ‘no crawl’”. A Cloudflare afirmou que, em vez de extrair dados legítimos do seu site, os bots mal comportados são alimentados com conteúdo irrelevante.

DeVault, da SourceHut, comentou que “Nepenthes tem uma sensação satisfatória de justiça, pois alimenta os rastreadores com inconsistências e envenena suas fontes, mas, no final das contas, o Anubis foi a solução que funcionou para o meu site”. Contudo, ele também fez um apelo sincero por uma solução mais direta: “Por favor, parem de legitimar LLMs, geradores de imagens de IA, GitHub Copilot ou qualquer outro tipo de lixo. Estou implorando: parem de usá-los, de falar sobre eles, de criar novos. Apenas parem.”

Dado que a chance disso acontecer é ínfima, os desenvolvedores, especialmente no universo FOSS, estão se defendendo com muita engenhosidade e uma boa dose de humor.