Acusações contra a OpenAI e uso de livros protegidos
A OpenAI vem sendo acusada de treinar seus modelos de inteligência artificial utilizando conteúdos protegidos por direitos autorais sem a devida autorização. Um relatório recente, elaborado por uma organização de vigilância em IA, levanta a séria acusação de que a empresa passou a depender cada vez mais de livros não públicos, dos quais não detinha licença, para treinar modelos mais sofisticados.
Como funcionam os modelos de IA
Os modelos de IA atuam como complexos motores de predição. Ao serem treinados com uma grande quantidade de dados – como livros, filmes, programas de TV, entre outros –, eles identificam padrões e conseguem extrapolar informações a partir de uma solicitação simples. Quando um modelo “escreve” um ensaio sobre uma tragédia grega ou “desenha” imagens no estilo de Ghibli, ele está, na verdade, utilizando seu vasto conhecimento para aproximar a resposta esperada, sem criar algo inédito.
O novo relatório e a metodologia DE-COP
O relatório, desenvolvido pelo AI Disclosures Project – uma organização sem fins lucrativos cofundada em 2024 por Tim O’Reilly e o economista Ilan Strauss – conclui que a OpenAI provavelmente utilizou o modelo GPT-4o e treinou-o com livros protegidos por paywall da O’Reilly Media, sem possuir um acordo de licença. Conforme descrito no estudo, o GPT-4o demonstrou um forte reconhecimento do conteúdo desses livros, contrastando com o modelo anterior, o GPT-3.5 Turbo, que apresentou maior reconhecimento dos conteúdos disponíveis publicamente.
Para detectar a presença de conteúdo com direitos autorais no material de treinamento, os pesquisadores utilizaram uma técnica conhecida como DE-COP – uma “ataque de inferência de associação” que testa se o modelo consegue diferenciar de forma confiável textos originais de versões parafraseadas e geradas pela própria IA. Segundo os autores, essa capacidade indica que o modelo pode ter conhecimento prévio do texto extraído do seu treinamento.
Resultados do estudo e implicações
Os pesquisadores, que analisaram o conhecimento do GPT-4o, do GPT-3.5 Turbo e de outros modelos da OpenAI sobre livros da O’Reilly publicados antes e depois das datas de corte de treinamento, utilizaram 13.962 trechos de 34 livros para estimar a probabilidade de determinados excertos terem sido incluídos no treinamento. Os resultados indicaram que o GPT-4o “reconheceu” significativamente mais conteúdos de livros protegidos por paywall da O’Reilly, mesmo após o controle de fatores como o aprimoramento da capacidade dos modelos mais recentes em identificar textos escritos por humanos.
Os autores alertam que, embora os resultados sejam reveladores, eles não constituem uma prova definitiva. A metodologia pode não ser infalível, e há a possibilidade de que alguns trechos protegidos tenham sido coletados a partir de usuários que copiaram e colaram conteúdos no ChatGPT.
Além disso, o estudo não avaliou os modelos mais recentes, como o GPT-4.5 e as versões “de raciocínio”, o que deixa em aberto se esses modelos foram ou não treinados com os dados dos livros protegidos, ou se utilizaram esses dados em menor quantidade em comparação ao GPT-4o.
Contexto e considerações finais
É de conhecimento geral que a OpenAI, que defende restrições mais brandas quanto à utilização de dados protegidos por direitos autorais para o desenvolvimento de modelos de IA, vem buscando fontes de treinamento de maior qualidade. A empresa chegou até a contratar jornalistas para aprimorar os resultados dos seus modelos e acompanha uma tendência no setor de recrutar especialistas em áreas como ciência e física para incorporar seu conhecimento aos sistemas de IA.
Vale ressaltar que a OpenAI paga por parte de seus dados de treinamento, mantendo acordos de licença com editoras de notícias, redes sociais e bibliotecas de mídia. Também são oferecidos mecanismos de exclusão, embora imperfeitos, que permitem aos detentores de direitos autorais sinalizar conteúdos que preferem não serem utilizados para treinamento.
Entretanto, em meio a diversas ações judiciais relacionadas às práticas de treinamento de dados e à interpretação das leis de direitos autorais nos Estados Unidos, o relatório da O’Reilly não pinta um quadro favorável para a empresa.