A Indústria de Tecnologia Acreditava Ser “Impossível” Criar uma IA Baseada Inteiramente em Dados Éticos – e Esses Cientistas Provaram o Contrário de Forma Espetacular

image?url=https%3A%2F%2Fwordpress assets.futurism.com%2F2025%2F06%2Fai built ethical data

Bem, veja só.

Uma equipe com mais de duas dezenas de pesquisadores de IA, vindos do MIT, da Universidade de Cornell, da Universidade de Toronto e de outras instituições, treinou um modelo de linguagem extenso utilizando exclusivamente dados licenciados de forma aberta ou que se encontravam em domínio público, de acordo com reportagem do Washington Post. Essa iniciativa fornece um modelo para o desenvolvimento ético desta tecnologia.

Contudo, como os responsáveis pela pesquisa reconhecem, o processo esteve longe de ser simples.

Conforme descrito em um artigo, ainda não revisado por pares, publicado nesta semana, ficou claro que o que mais os impedia não era a potência de processamento dos computadores, mas sim o trabalho manual necessário.

Isso porque os textos contidos no conjunto de dados – com mais de oito terabytes e denominado Common Pile v0.1 – precisaram ser cuidadosamente revisados e reformatados para se tornarem adequados ao treinamento da IA. Além disso, foi preciso um esforço enorme para verificar o status de direitos autorais de todo o material, já que muitas obras online possuem licenças inadequadas.

“Não é algo que você possa simplesmente escalar com mais recursos, como chips de computador ou um elegante coletor de dados”, explicou a coautora do estudo, Stella Biderman, cientista da computação e diretora executiva da organização sem fins lucrativos Eleuther AI. “Utilizamos ferramentas automatizadas, mas no final de tudo, nosso trabalho foi anotado manualmente e verificado por pessoas – e isso é realmente difícil.”

Mesmo com todos os desafios, Biderman e sua equipe conseguiram concluir a tarefa.

Após a árdua jornada de criação do Common Pile, eles utilizaram esse conjunto de dados ético para treinar um modelo de linguagem de sete bilhões de parâmetros. O resultado foi uma IA que se equipara de forma notável aos modelos da indústria, como o Llama 1 e o Llama 2 7B da Meta – o que é impressionante, considerando que essas versões foram lançadas há mais de dois anos, praticamente uma eternidade na corrida pela IA.

É importante destacar que essa conquista foi realizada por uma equipe modesta e não por uma corporação com bilhões de dólares, o que os levou a compensar a falta de recursos com muita criatividade. Um exemplo foi a descoberta de mais de 130 mil livros em inglês na Biblioteca do Congresso, que haviam sido negligenciados.

O direito autoral continua sendo uma das questões éticas e legais mais desafiadoras para a IA. Grandes players como OpenAI e Google consumiram quantidades inimagináveis de dados disponíveis na web – desde notícias até posts em redes sociais – e a Meta já enfrentou processos por supostamente usar ilegalmente milhões de livros protegidos para treinar suas IAs.

A indústria de tecnologia tem racionalizado sua voraz demanda por dados sustentando que tudo isso se enquadra no uso justo – além de alegar, de forma quase existencial, que seria “impossível” desenvolver essa tecnologia sem coletar gratuitamente o conteúdo de todos.

Este trabalho mais recente, no entanto, refuta essa justificativa do Vale do Silício, embora sem eliminar todas as preocupações éticas. Afinal, trata-se de um grande modelo de linguagem, tecnologia que, por definição, pode ocasionar a perda de empregos, e nem todos os autores cujas obras estão em domínio público ficariam satisfeitos com sua reprodução automatizada – especialmente se ainda estiverem vivos e com direitos autorais vigentes.

Mesmo que as empresas de IA venham a ser restringidas a utilizar apenas conteúdos com permissão ou compensação – o que ainda é uma grande hipótese –, o fato é que enquanto essas empresas existirem, haverá uma pressão significativa sobre os detentores dos direitos autorais para liberar seus materiais para treinamento de IA.

Stella Biderman não tem ilusões de que gigantes como a OpenAI se tornem subitamente modelos de ética na utilização de dados. No entanto, ela espera que seu trabalho incentive, ao menos, a transparência sobre os dados utilizados nos treinamentos dos modelos de IA.

“Mesmo uma transparência parcial tem um enorme valor social e um valor científico moderado”, afirmou Biderman.