Les LLM ne peuvent plus se cacher, apprendre et tirer profit de 18 ans de liens et de conversations.

Si vous êtes une entreprise qui forme un grand modèle de langage (LLM) IA et que vous voulez qu’il apprenne à partir du subreddit u/420NarutoConspiracy, vous devrez bientôt payer pour cela.

Steve Huffman, fondateur et PDG de Reddit, a récemment déclaré au New York Times qu’il prévoyait de faire payer les entreprises qui accèdent à son API afin d’extraire ses 18 années de contenu essentiellement généré par des humains. Les détails des nouvelles conditions sont disponibles dans un communiqué publié ultérieurement sur Reddit.

L’API restera gratuite pour les développeurs qui travaillent sur des bots et d’autres outils Reddit, ainsi que pour les chercheurs qui travaillent sur des projets universitaires ou non commerciaux.

Mais, en termes simples, les conversations Reddit à des fins d’entraînement à l’IA auront un prix, dont les montants exacts devraient être communiqués dans les semaines à venir.

« Le corpus de données de Reddit est vraiment précieux », a déclaré M. Huffman au Times. Mais nous ne sommes pas obligés de donner gratuitement toute cette valeur à certaines des plus grandes entreprises du monde.

« Suivre Reddit, générer de la valeur et ne pas la rendre à nos utilisateurs est quelque chose qui nous pose problème. C’est le bon moment pour resserrer les choses »

Les commentaires et les conversations sur Reddit ont constitué une ressource précieuse pour la formation des IA de LLM. ChatGPT et Google’s Bard citent les données de Reddit comme l’une de leurs sources.

Dans leur analyse d’un sous-ensemble (12 millions) de l’ensemble de données de génération d’images de Stable Diffusion (2,3 milliards), Andy Baio et Simon Willison ont noté que « les plateformes de contenu généré par les utilisateurs constituaient une énorme source de données d’images ».

Une enquête sur les sources de données communes à de nombreuses IA, publiée aujourd’hui par le Washington Post, indique qu’une « compilation textuelle de liens bien notés par les utilisateurs de Reddit » est incluse dans le GPT-3.

Bien qu’il ait l’intention de limiter l’accès aux IA, Reddit a déclaré vouloir donner aux développeurs et aux modérateurs de meilleurs outils pour travailler dans leurs communautés.

Les applications iOS et Android de Reddit permettront de consulter rapidement l’historique d’un utilisateur, de mettre à jour les règles de la communauté et de mieux gérer les files d’attente multiples.

La décision de Reddit concernant l’accès à l’API intervient alors que l’entreprise envisage de s’introduire en bourse au cours du second semestre 2023, selon The Information. La société a déposé confidentiellement une demande d’introduction en bourse en décembre 2021.

Elle s’attendait à une valorisation de 15 milliards de dollars, selon Reuters, mais a reporté son dépôt jusqu’à ce que les conditions du marché, en particulier autour des entreprises technologiques, s’améliorent. Source d’information : arstechnica.