Um novo estudo revela que modelos de linguagem de grande porte podem memorizar e gerar longos trechos de livros famosos, às vezes quase palavra por palavra. Os resultados podem ter consequências significativas para futuras ações judiciais envolvendo direitos autorais.

Pesquisadores da Carnegie Mellon University e do Instituto Superior Técnico apresentaram o “RECAP”, um método que verifica exatamente quais textos um modelo de IA memorizou. O RECAP utiliza um ciclo de feedback com diversos modelos de linguagem para reconstruir conteúdos presentes nos dados de treinamento, podendo inclusive revelar trechos de obras protegidas por direitos autorais.

Essa abordagem foi desenvolvida devido ao fato de que os dados de treinamento para grandes modelos geralmente são mantidos em sigilo. Fornecedores frequentemente utilizam materiais protegidos – às vezes com permissão, outras vezes sem – o que dificulta determinar o conteúdo exato de cada modelo.

O RECAP investiga se um modelo consegue, de forma autônoma, gerar longas seções de texto. Como muitos modelos se recusam a atender pedidos diretos por conteúdo protegido, o sistema incorpora um módulo de jailbreak que reescreve os comandos até que o modelo produza uma resposta utilizável. Em seguida, uma segunda IA compara a saída com o trecho original e fornece um feedback sem citar o texto-fonte. Em muitos casos, os resultados melhoraram significativamente após apenas uma rodada de feedback, embora rodadas adicionais tenham contribuído em menor escala.

O fluxo de trabalho do RECAP segmenta o texto, tenta reproduzi-lo, avalia a saída e aperfeiçoa iterativamente o resultado. Caso uma consulta seja rejeitada, o módulo de jailbreak reescreve o comando, enquanto um ciclo de feedback refina a resposta por até cinco vezes.

retract system

Nos testes, o RECAP conseguiu reconstruir grandes trechos de livros como “O Hobbit” e “Harry Potter” com notável precisão. Por exemplo, os pesquisadores constataram que o Claude 3.7 produziu cerca de 3.000 trechos do primeiro livro de “Harry Potter” utilizando o RECAP, em comparação com apenas 75 trechos encontrados por métodos anteriores.

recap results

O RECAP demonstra que modelos de linguagem de grande porte podem reproduzir, mesmo que de forma parcial, obras tanto de domínio público quanto protegidas por direitos autorais. As pontuações de reconhecimento (ROUGE-L) foram mais altas para obras de domínio público, mas os modelos também lembraram com detalhes materiais protegidos.

Implicações para a Lei de Direitos Autorais

Para testar os limites do RECAP, a equipe criou um novo benchmark chamado “EchoTrace”, que reúne 35 livros completos: 15 clássicos de domínio público, 15 best-sellers protegidos por direitos autorais e cinco títulos recentemente publicados que definitivamente não fizeram parte dos dados de treinamento dos modelos. Foram acrescentados, ainda, 20 artigos de pesquisa do arXiv.

Os resultados demonstraram que os modelos conseguiam reproduzir trechos de quase todas as categorias – em alguns casos, de forma quase idêntica – exceto para os livros que não haviam sido vistos durante o treinamento. Esse achado reforça a ideia de que os modelos retêm o material ao qual foram expostos.

Diante dessas constatações, os pesquisadores veem o RECAP como uma ferramenta capaz de revelar exatamente quais dados estão presentes nos grandes modelos de IA. Esse nível de transparência poderá ser fundamental à medida que aumentam as ações judiciais envolvendo direitos autorais. Embora o RECAP se concentre em texto, há também relatos de que modelos de imagem podem reproduzir conteúdos quase exatamente, produzindo saídas praticamente idênticas às obras originais.

Decisões judiciais recentes evidenciam a instabilidade dessa área do direito. No Reino Unido, um tribunal decidiu que os pesos dos modelos de IA (valores aprendidos durante o treinamento) não contêm conteúdo protegido por direitos autorais, de modo que os próprios modelos não infringem tais direitos. Em contraste, um tribunal alemão concluiu que tanto o armazenamento de dados nos pesos quanto a geração literal de texto violam a legislação de direitos autorais, num caso que envolveu a reprodução de letras de músicas pelo ChatGPT. Os resultados obtidos com o RECAP podem fortalecer argumentos a favor dessa interpretação mais rigorosa.

O código do RECAP está disponível no GitHub e o conjunto de dados “EchoTrace” pode ser acessado no Hugging Face.

midjourney joker copyright e1762952067298