Durante anos, funcionários do Meta discutiram internamente a utilização de obras protegidas por direitos autorais obtidas por meios questionáveis para treinar os modelos de inteligência artificial da empresa, conforme documentos judiciais divulgados recentemente.
Esses documentos foram apresentados pelos demandantes no caso Kadrey v. Meta, uma das disputas de direitos autorais envolvendo IA que vêm surgindo nos tribunais norte-americanos. A empresa defende que treinar modelos com obras protegidas, principalmente livros, configura “uso justo”, enquanto autores como Sarah Silverman e Ta-Nehisi Coates, entre outros, discordam dessa visão.
Materiais apresentados anteriormente alegavam que o CEO do Meta, Mark Zuckerberg, autorizou a equipe de IA a utilizar conteúdo protegido e que a empresa havia interrompido as negociações de licenciamento de dados com editoras literárias. No entanto, os novos documentos, que incluem partes de conversas internas entre funcionários, ilustram de forma clara como o Meta pode ter utilizado dados protegidos por direitos autorais para treinar seus modelos, inclusive os da família Llama.
Em uma dessas conversas, funcionários discutiram a possibilidade de treinar os modelos com obras que sabiam poder envolver riscos legais. Xavier Martinet, engenheiro de pesquisa do Meta, sugeriu, em uma conversa interna de fevereiro de 2023, que a empresa adquirisse e-books a preços de varejo para compor um conjunto de treinamento, em vez de negociar acordos individuais com editoras. Mesmo após a observação de que o uso não autorizado de materiais protegidos poderia gerar desafios legais, Martinet reforçou a ideia, argumentando que inúmeras startups provavelmente já estariam utilizando livros pirateados para esse fim. Segundo ele, negociar diretamente com as editoras levaria demasiado tempo.
Melanie Kambadur, gerente sênior da equipe de pesquisa do modelo Llama, mencionou que o Meta estava em contato com a plataforma de hospedagem de documentos Scribd e outras organizações para obtenção de licenças. Ela alertou, porém, que mesmo os dados disponíveis publicamente exigem autorizações, embora o corpo jurídico da empresa esteja atualmente sendo menos conservador, beneficiado por mais recursos, equipe jurídica ampliada e suporte ágil do setor de negócios.
Discussões sobre o Libgen
Em outra conversa, Kambadur abordou a possibilidade de utilizar o Libgen—aum agregador de links que fornece acesso a obras protegidas por direitos autorais como alternativa às fontes que o Meta poderia licenciar. O Libgen já enfrentou várias ações judiciais, ordens para encerrar suas atividades e multas bilionárias devido a infrações de direitos autorais. Um colega de Kambadur chegou a compartilhar uma captura de tela de uma busca no Google que apontava a ilegalidade do Libgen.
Alguns decisores dentro do Meta pareciam acreditar que não utilizar o Libgen para o treinamento dos modelos poderia prejudicar a competitividade da empresa na corrida da inteligência artificial. Em um e-mail direcionado à vice-presidente de IA, Sony Theakanath ressaltou que o uso do Libgen era “essencial para atingir números de ponta” em diversas categorias de desempenho dos modelos de IA. No mesmo comunicado, foram apresentadas medidas para mitigar os riscos legais, como a remoção de dados claramente identificados como pirateados e a não divulgação pública do uso desses conjuntos de dados.
Além disso, em outra conversa interna, foi mencionado que a equipe de IA também ajustava os modelos para “evitar solicitações com riscos relacionados à propriedade intelectual”, como pedidos para reproduzir trechos extensos de obras famosas ou para identificar os e-books usados no treinamento.
Os documentos também sugerem que o Meta pode ter utilizado dados do Reddit para treinar seus modelos, possivelmente replicando a abordagem de aplicativos terceirizados como o Pushshift. Vale lembrar que o Reddit anunciou, em abril de 2023, a intenção de cobrar das empresas de IA pelo acesso a seus dados para treinamento.
Em uma conversa datada de março de 2024, Chaya Nayak, diretora de gerenciamento de produtos na divisão de IA generativa do Meta, afirmou que a liderança da empresa considerava “reverter” decisões anteriores sobre os conjuntos de treinamento. Entre essas decisões estava a escolha de não utilizar conteúdos provenientes do Quora ou livros e artigos científicos licenciados, medida que visava garantir um volume de dados suficiente para o treinamento dos modelos. Nayak ressaltou que os conjuntos de dados proprietários do Meta—como publicações no Facebook, Instagram, transcrições de vídeos e mensagens do Meta for Business—não eram suficientes, evidenciando a necessidade de ampliar o acervo de dados.
Os demandantes no caso Kadrey v. Meta já alteraram sua denúncia diversas vezes desde a sua apresentação no Tribunal Distrital dos EUA para o Distrito Norte da Califórnia, Divisão de São Francisco, em 2023. A versão mais recente alega, entre outras questões, que o Meta cruzou informações de livros pirateados com obras licenciáveis para determinar a viabilidade de firmar acordos com editoras.
Em sinal da seriedade com que encara os desafios legais, o Meta reforçou sua equipe de defesa, incorporando dois litigantes da Suprema Corte do escritório Paul Weiss.
A empresa não respondeu imediatamente a solicitações de comentário.