Uma nova decisão judicial traça uma linha clara entre o uso justo e a infração para empresas de IA que treinam com livros protegidos por direitos autorais, permitindo o uso transformativo de obras obtidas legalmente, mas rejeitando qualquer defesa para material pirateado.
Uma decisão judicial recente permite que empresas de IA utilizem livros protegidos por direitos autorais para treinamento, desde que as obras tenham sido obtidas de forma legal, definindo essa prática como “transformativa – espetacularmente transformadora”, pois o objetivo é aprender com os textos originais e não simplesmente copiá-los.
“Assim como qualquer leitor que aspira ser escritor, os modelos de linguagem da Anthropic foram treinados com obras não para se antecipar e replicar ou substituí-las – mas para fazer uma curva acentuada e criar algo diferente. Se esse processo de treinamento exigia, de forma razoável, a criação de cópias dentro do modelo ou algo semelhante, tais cópias estavam envolvidas em um uso transformativo.”
Bartz v. Anthropic PBC, pp. 13-14
Esse raciocínio está em sintonia com o argumento mais amplo de uso transformativo levantado por diversas empresas de IA em defesa das práticas de extração de dados realizadas sem o consentimento dos criadores.
Os modelos finais não reproduzem os livros de forma direta. O tribunal observou que os demandantes – os autores Andrea Bartz, Charles Graeber e Kirk Wallace Johnson – nem sequer buscaram demonstrar que o Claude pudesse produzir resultados semelhantes aos originais ou mesmo substituí-los.
Essa parte da decisão abrange os livros que a Anthropic adquiriu legalmente em versão impressa, muitas vezes de segunda mão. A empresa removeu as encadernações, digitalizou os livros e, posteriormente, destruiu os exemplares originais. Os PDFs resultantes foram armazenados em uma biblioteca interna com capacidade de busca. Como a Anthropic não produziu nem distribuiu cópias extras, o tribunal considerou que essa prática também se enquadra como uso justo.
Nenhuma tolerância para a pirataria
O tribunal adotou uma postura muito mais rigorosa em relação aos livros que a Anthropic obteve de fontes piratas, como Books3, LibGen e PiLiMi. Entre janeiro de 2021 e julho de 2022, a empresa baixou mais de 7 milhões de livros provenientes de fontes ilegais, incluindo obras dos próprios demandantes. Esses arquivos foram armazenados de forma permanente, mesmo que não tenham sido utilizados para treinamento. Observa-se que outras empresas de IA, inclusive a Meta, teriam utilizado fontes de dados semelhantes.
O tribunal deixou claro que construir uma biblioteca digital com livros pirateados não caracteriza um uso transformativo e, portanto, não se enquadra como uso justo. A possibilidade de uma empresa desenvolver, posteriormente, um uso lícito não exime a infração inicial. “Não há nenhuma exceção, de qualquer forma, para empresas de IA na Lei de Direitos Autorais”, afirmou o tribunal.
Em resumo, utilizar obras protegidas por direitos autorais para o treinamento de sistemas de IA pode ser considerado uso justo se os dados forem obtidos de forma legal. Porém, empresas que conscientemente utilizam cópias pirateadas não podem se valer dessa defesa.
Uma grande questão permanece: a coleta massiva de conteúdo online – especialmente quando barreiras técnicas são contornadas – configura uma forma lícita de obtenção de dados?
Muitos modelos de IA são treinados com dados extraídos de sites públicos sem o consentimento dos criadores, e os padrões legais ainda não estão bem definidos. Se essa decisão levar à exigência de licenciamento em massa de dados protegidos por direitos autorais, isso poderá representar grandes desafios para as empresas de IA, mesmo que o uso real dos dados seja considerado transformativo.
Apesar do tribunal ter sido favorável à Anthropic quanto à digitalização de livros adquiridos e seu uso para treinamento, ele se recusou a encerrar completamente o processo. As alegações relativas aos livros pirateados e ao armazenamento permanente das obras não utilizadas permanecem em discussão. O processo prosseguirá, com o foco em determinar se a Anthropic pode ser responsabilizada pelo uso de conteúdo pirateado, além de avaliar a possibilidade de indenizações por “infração intencional”.
O caso ainda se encontra em seus estágios iniciais e seguirá no tribunal federal do Distrito Norte da Califórnia. O desfecho poderá influenciar outros processos judiciais relacionados ao treinamento de IA e ao uso de dados protegidos por direitos autorais.
Em um caso separado envolvendo a Meta, outro juiz dos Estados Unidos já manifestou sérias dúvidas quanto à possibilidade de utilizar dados protegidos por direitos autorais para o treinamento de IA. O Escritório de Direitos Autorais dos EUA também afirmou que o uso justo não se estende a modelos de IA treinados com grandes quantidades de material protegido, embora o diretor do escritório tenha sido removido pela administração Trump logo após a publicação desse relatório, o que pode fazer com que essa posição não reflita mais a política vigente.