Os LLMs não podem mais se esconder, aprender e lucrar com 18 anos de links e conversas.

Se você é uma empresa que treina uma IA de modelo de linguagem grande (LLM) e quer que ela aprenda com o subreddit u/420NarutoConspiracy, em breve você terá que pagar por isso.

Steve Huffman, fundador e CEO do Reddit, disse recentemente ao The New York Times que planejava cobrar das empresas que acessassem sua API com o objetivo de puxar seus 18 anos de conteúdo gerado principalmente por humanos. Detalhes sobre os novos termos estão disponíveis em um post de anúncio subsequente no Reddit.

A API ainda seria gratuita para desenvolvedores que trabalham em bots e outras ferramentas do Reddit, e pesquisadores que trabalham em projetos acadêmicos ou não comerciais.

Mas, simplesmente, as conversas do Reddit para fins de treinamento em IA virão com um preço, cujos valores exatos devem chegar nas próximas semanas.

“O corpus de dados do Reddit é realmente valioso”, disse Huffman ao Times. Mas não precisamos dar todo esse valor a algumas das maiores empresas do mundo de graça.

“Rastrear o Reddit, gerar valor e não devolver nada desse valor aos nossos usuários é algo com o qual temos um problema. É um bom momento para apertarmos as coisas.”

Os comentários e conversas do Reddit têm sido um rico recurso para treinar IAs LLM. O ChatGPT e o Bard do Google citam os dados do Reddit como uma de suas fontes.

Em sua análise de apenas um subconjunto (12 milhões) do conjunto de dados de geração de imagens da Stable Diffusion (2,3 bilhões), Andy Baio e Simon Willison observaram que “as plataformas de conteúdo geradas pelo usuário eram uma enorme fonte para os dados de imagem.

Uma investigação sobre fontes de dados comuns para muitas IAs publicada hoje pelo The Washington Post observou que “uma compilação de texto de links altamente classificados pelos usuários do Reddit” está incluída no GPT-3.

Embora pretenda limitar o acesso a IAs, o Reddit disse que pretende dar aos desenvolvedores e moderadores melhores ferramentas para trabalhar em suas comunidades.

Os aplicativos iOS e Android do Reddit oferecerão maneiras de visualizar rapidamente o histórico de um usuário, atualizar as regras da comunidade e lidar melhor com várias filas de mods.

A mudança do Reddit no acesso à API ocorre quando a empresa procura abrir o capital no segundo semestre de 2023, de acordo com o The Information. A empresa entrou confidencialmente com um pedido de oferta pública inicial em dezembro de 2021.

A empresa esperava uma avaliação de US $ 15 bilhões, de acordo com a Reuters, mas adiou sua apresentação até que as condições de mercado, especialmente em torno de empresas de tecnologia, melhorassem. Fonte da notícia: arstechnica.