Pesquisadores sugerem que a OpenAI treinou modelos de IA com livros pagos da O’Reilly
A OpenAI vem sendo acusada por diversas partes de treinar sua inteligência artificial com conteúdo protegido por direitos autorais sem a devida permissão. Agora, um novo artigo de uma organização de vigilância de IA levanta a séria acusação de que a empresa passou a depender cada vez mais de livros não públicos, dos quais não possui licença, para treinar modelos de IA mais sofisticados.
Modelos de IA são, essencialmente, complexos mecanismos de previsão. Treinados com uma grande quantidade de dados — livros, filmes, programas de TV, entre outros — eles aprendem padrões e desenvolvem formas inovadoras de extrapolar a partir de um simples comando. Quando um modelo “escreve” um ensaio sobre uma tragédia grega ou “desenha” imagens no estilo Ghibli, ele está utilizando seu vasto conhecimento para aproximar a resposta, sem realmente gerar algo inédito.
Enquanto vários laboratórios de IA, incluindo a OpenAI, já começaram a incorporar dados gerados por inteligência artificial para treinar novos modelos à medida que as fontes do mundo real se esgotam (principalmente a internet pública), poucos optaram por eliminar completamente o uso de dados reais. Isso se deve, provavelmente, ao risco de deterioração no desempenho dos modelos quando treinados apenas com dados sintéticos.
O novo artigo, oriundo do AI Disclosures Project, uma organização sem fins lucrativos cofundada em 2024 pelo empresário Tim O’Reilly e pelo economista Ilan Strauss, conclui que a OpenAI provavelmente treinou seu modelo GPT-4o com livros pagos da O’Reilly Media, para os quais não existe um acordo de licenciamento com a empresa.
No ChatGPT, o GPT-4o é o modelo padrão. Segundo o artigo, o GPT-4o demonstra um reconhecimento forte do conteúdo dos livros pagos da O’Reilly, em comparação com o modelo anterior, GPT-3.5 Turbo, que apresenta maior reconhecimento relativo de amostras de livros da O’Reilly disponíveis publicamente.
O estudo utilizou um método denominado DE-COP, introduzido inicialmente em uma pesquisa acadêmica em 2024, desenvolvido para detectar conteúdo protegido por direitos autorais na base de treinamento dos modelos de linguagem. Conhecido também como “ataque de inferência de pertencimento”, o método verifica se o modelo consegue distinguir de forma confiável entre textos originais escritos por humanos e versões parafraseadas geradas por inteligência artificial. Se o modelo conseguir essa distinção, isso indica que ele provavelmente já possuía conhecimento prévio do texto presente em seus dados de treinamento.
Os autores do artigo – O’Reilly, Strauss e o pesquisador de IA Sruly Rosenblat – afirmam que investigaram o conhecimento que os modelos GPT-4o, GPT-3.5 Turbo e outros modelos da OpenAI demonstram sobre os livros da O’Reilly Media publicados antes e depois das datas de corte do treinamento. Para isso, foram utilizados 13.962 trechos de 34 livros da O’Reilly, com o objetivo de estimar a probabilidade de um determinado trecho ter sido incluído no conjunto de dados de treinamento de um modelo.
De acordo com os resultados apresentados, o GPT-4o “reconheceu” uma quantidade significativamente maior de conteúdo dos livros pagos da O’Reilly em comparação aos modelos mais antigos, como o GPT-3.5 Turbo. Isso ocorre mesmo levando em consideração fatores de confusão, como a capacidade aprimorada dos modelos mais recentes de identificar se um texto foi escrito por humanos.
Os autores ressaltam que o GPT-4o provavelmente possui conhecimento prévio de muitos livros não públicos da O’Reilly publicados antes da data de corte de seu treinamento. Contudo, eles são cautelosos ao afirmar que esse não é um indício definitivo, reconhecendo que o método experimental não é infalível e que a OpenAI pode ter obtido os trechos dos livros pagos por meio de usuários que copiaram e colaram esse conteúdo no ChatGPT.
Além disso, os autores não avaliaram a coleção mais recente de modelos da OpenAI, que inclui o GPT-4.5 e modelos “raciocinadores”, como o o3-mini e o o1, de modo que é possível que esses modelos não tenham sido treinados com dados dos livros pagos da O’Reilly ou tenham sido treinados com uma quantidade menor de conteúdo desse tipo, em comparação com o GPT-4o.
Resta lembrar que a OpenAI tem buscado dados de treinamento de alta qualidade há algum tempo e defende uma abordagem mais flexível no uso de dados protegidos por direitos autorais durante o desenvolvimento de modelos. A empresa inclusive chegou a contratar jornalistas para ajudar a aprimorar as respostas geradas por seus modelos, seguindo uma tendência no setor de inteligência artificial, em que empresas recrutam especialistas de áreas como ciência e física para inserir seus conhecimentos nos sistemas de IA.
É importante notar que a OpenAI paga por ao menos parte de seus dados de treinamento, mantendo acordos de licenciamento com editoras de notícias, redes sociais, bibliotecas de mídia e outros. A empresa também oferece mecanismos de opt-out — embora imperfeitos — que permitem aos detentores de direitos autorais sinalizar conteúdos que preferem que não sejam utilizados para fins de treinamento.
No entanto, enquanto a OpenAI enfrenta diversas ações judiciais relacionadas às suas práticas de obtenção e uso de dados de treinamento, o artigo sobre os livros da O’Reilly não traz uma imagem particularmente positiva para a empresa.