Los LLM ya no podrán esconderse, aprender y sacar provecho de 18 años de enlaces y conversaciones.

Si eres una empresa que entrena una gran IA de modelos lingüísticos (LLM) y quieres que aprenda del subreddit u/420NarutoConspiracy, pronto tendrás que pagar por ello.

Steve Huffman, fundador y consejero delegado de Reddit, declaró recientemente a The New York Times que tenía previsto cobrar a las empresas que accedan a su API para poder extraer sus 18 años de contenidos, en su mayoría generados por humanos. Los detalles de las nuevas condiciones están disponibles en un anuncio posterior publicado en Reddit.

La API seguiría siendo gratuita para los desarrolladores que trabajan con bots y otras herramientas de Reddit, y para los investigadores que trabajan en proyectos académicos o no comerciales.

Pero, en pocas palabras, las conversaciones de Reddit con fines de entrenamiento de IA tendrán un precio, cuyas cantidades exactas llegarán en las próximas semanas.

«El corpus de datos de Reddit es realmente valioso», declaró Huffman al Times. Pero no tenemos por qué dar todo ese valor a algunas de las mayores empresas del mundo de forma gratuita.

«Rastrear Reddit, generar valor y no devolver nada de ese valor a nuestros usuarios es algo con lo que tenemos un problema. Es un buen momento para ajustar las cosas»

Los comentarios y conversaciones de Reddit han sido un rico recurso para la formación de AI de LLM. ChatGPT y Google's Bard citan los datos de Reddit como una de sus fuentes.

En su análisis de sólo un subconjunto (12 millones) del conjunto de datos de generación de imágenes de Stable Diffusion (2.300 millones), Andy Baio y Simon Willison observaron que «las plataformas de contenido generado por el usuario eran una enorme fuente de datos de imágenes».

Una investigación sobre fuentes de datos habituales para muchas IA publicada hoy por The Washington Post señalaba que en GPT-3 se incluye «una compilación de texto de enlaces muy valorados por los usuarios de Reddit».

Aunque pretende limitar el acceso a las IAs, Reddit dijo que quiere dar a los desarrolladores y moderadores mejores herramientas para trabajar en sus comunidades.

Las aplicaciones de Reddit para iOS y Android ofrecerán formas de ver rápidamente el historial de un usuario, actualizar las reglas de la comunidad y gestionar mejor múltiples colas de mods.

La decisión de Reddit sobre el acceso a la API se produce en un momento en el que la empresa pretende salir a bolsa en la segunda mitad de 2023, según The Information. La empresa solicitó confidencialmente una oferta pública inicial en diciembre de 2021.

La empresa esperaba una valoración de 15.000 millones de dólares, según Reuters, pero pospuso su presentación hasta que mejoraran las condiciones del mercado, especialmente en torno a las empresas tecnológicas. Fuente de la noticia: arstechnica.