O boom da IA é construído sobre dados, os dados vêm da internet e a internet veio de nós.

Uma análise do Washington Post de um conjunto de dados públicos amplamente utilizado para treinar IAs mostra como amplamente a indústria de IA de hoje experimentou o tesouro de 30 anos de publicação na web para orientar suas redes neurais.

Por que é importante: Já escreveu um blog? Construiu uma página web? Participou de um tópico do Reddit? É provável que suas palavras tenham contribuído para a educação dos chatbots de IA em todos os lugares.

O quadro geral: embora essa reaproveitação verbal maciça esteja provocando uma briga legal importante sobre se deve ser tratada como uso justo ou roubo, também está inspirando um acerto de contas pessoal para muitos dos milhões cujas postagens construíram o mundo on-line de hoje.

Pensávamos que estávamos compartilhando nossos corações e mentes, e é claro que estávamos.

  • Mas sem perceber, também estávamos criando um banco de dados, incompleto, mas rico, de expressão humana.
  • Esse banco de dados torna possível a ginástica de conclusão de frases estranhamente hábil do ChatGPT e de seus concorrentes.

Como ferramentas de IA visual como Dall-E, Midjourney e Stable Diffusion se tornaram populares antes que os chatbots verbais como o ChatGPT decolassem, os criadores visuais – fotógrafos, ilustradores e artistas finos — foram os primeiros a lidar com essa percepção.

  • Os músicos enfrentam o mesmo tipo de epifania, pois encontram fac-símiles de suas obras — como a colaboração da semana passada (nunca aconteceu) entre Drake e The Weeknd, “Heart on My Sleeve”.

Mas muito mais de nós digitamos algumas palavras na internet do que já gravamos músicas ou desenhamos imagens.

  • O projeto do Washington Post permite que você insira qualquer nome de domínio da Internet para ver se e quanto ele contribuiu para um banco de dados de treinamento de IA. (Este não é o mesmo que o OpenAI usou para o ChatGPT ou seus outros projetos; o OpenAI não divulgou suas fontes de dados de treinamento.)
  • “O conjunto de dados continha mais de meio milhão de blogs pessoais, representando 3,8%” do total de “tokens”, ou pedaços discretos de linguagem, nos dados, descobriu a equipe do Post. (Publicações em plataformas de mídia social proprietárias como Facebook, Instagram e Twitter não aparecem — essas empresas mantiveram o acesso aos seus dados para si mesmas.)

Nota: Esses bancos de dados de treinamento são enormes, mas dificilmente representativos. Algumas culturas, grupos e assuntos são superamostrados; muitos outros são injustamente negligenciados. E todos os vieses, limitações e aspectos tóxicos da cultura da internet aparecem nos dados de treinamento de IA.

  • Se você tem algum tipo de histórico on-line, a oportunidade de autoexame que a pesquisa do Post oferece é irresistível, como pesquisar seu próprio nome no Google. (Há uma ferramenta de pesquisa semelhante chamada “Fui treinado?” para recursos visuais.)
  • Quando você encontrar o seu trabalho listado, você provavelmente vai se perguntar, como eu fiz, “É isso que eu queria?” e “Por que eu não fui consultado?” e “E se eu soubesse que isso estava chegando?”

Seja inteligente: a fome da IA por dados de treinamento lança toda a história de 30 anos da internet popular sob uma nova luz.

  • Os avanços da IA de hoje não poderiam acontecer sem a disponibilidade dos estoques digitais e aterros de informações, ideias e sentimentos que a internet levou as pessoas a produzir.
  • Mas produzimos tudo isso um para o outro, não para a IA.

Desse ponto de vista, a existência desses vastos “cadáveres” de dados foi uma consequência não intencional profundamente importante do surgimento da própria web.

  • Em 1995, quando uma geração se apaixonou pelo “www” e pelo navegador, ou dez anos depois, quando outra geração celebrou o advento dos blogs e a “sabedoria da multidão”, esse resultado foi escondido da vista.
  • No início da década de 2010, os movimentos da revolução do aprendizado de máquina começaram a deixar alguns especialistas inquietos. Mas foi preciso um olhar muito longo para sentir que toda a web poderia estar prestes a se transformar em forragem de treinamento de IA.

Hoje, essa consequência não intencional está na frente e no centro de nossa experiência on-line — lembrando-nos de que tudo o que estamos fazendo agora com e para a IA, por sua vez, moldará o futuro de maneiras que não podemos prever.

  • Por exemplo: se desencadearmos uma enxurrada de simulacros em nossas redes públicas, corremos o risco de desencorajar as pessoas a continuar compartilhando, ou mesmo fazendo, seu próprio trabalho original.
  • Isso pode deixar os futuros modelos de IA presos para sempre com a produção congelada da humanidade por volta de 2000-2020, sem nada mais novo para aprender.

Com conteúdo do Axios.