L’essor de l’IA repose sur les données, les données proviennent de l’internet et l’internet provient de nous.

L’analyse par le Washington Post d’un ensemble de données publiques largement utilisé pour former les IA montre à quel point l’industrie de l’IA d’aujourd’hui a expérimenté le trésor de 30 années de publication sur le web pour guider ses réseaux neuronaux.

Pourquoi c’est important: avez-vous déjà écrit un blog ? Construit une page web ? Participé à un fil de discussion sur Reddit ? Il est probable que vos mots aient contribué à l’éducation des chatbots d’IA partout dans le monde.

Vue d’ensemble: si cette réutilisation verbale massive provoque une bataille juridique majeure sur la question de savoir si elle doit être traitée comme un usage loyal ou comme un vol, elle inspire également une réflexion personnelle à bon nombre des millions de personnes dont les messages ont construit le monde en ligne d’aujourd’hui.

Nous pensions partager notre cœur et notre esprit, et c’était bien sûr le cas.

  • Mais sans le savoir, nous avons également créé une base de données incomplète mais riche de l’expression humaine.
  • Cette base de données rend possible l’étrange gymnastique de complétion de phrases de ChatGPT et de ses concurrents.

Comme les outils d’IA visuelle tels que Dall-E, Midjourney et Stable Diffusion sont devenus populaires avant que les chatbots verbaux comme ChatGPT ne décollent, les créateurs visuels – photographes, illustrateurs et artistes – ont été les premiers à faire face à cette prise de conscience.

  • Les musiciens sont confrontés au même type d’épiphanie lorsqu’ils découvrent des fac-similés de leur travail, comme la collaboration (qui n’a jamais eu lieu) de la semaine dernière entre Drake et The Weeknd, « Heart on My Sleeve ».

Mais nous sommes beaucoup plus nombreux à taper quelques mots sur l’internet qu’à enregistrer des chansons ou à faire des dessins.

  • Le projet du Washington Post permet d’entrer n’importe quel nom de domaine Internet pour voir s’il a contribué à une base de données d’entraînement à l’IA, et dans quelle mesure (ce n’est pas la même que celle utilisée par OpenAI pour ChatGPT ou ses autres projets ; OpenAI n’a pas rendu publiques ses sources de données d’entraînement)
  • « L’ensemble de données contenait plus d’un demi-million de blogs personnels, représentant 3,8 % du total des « tokens », c’est-à-dire des morceaux de langage discrets, dans les données, a constaté l’équipe du Post. (Les messages publiés sur les plateformes de médias sociaux propriétaires telles que Facebook, Instagram et Twitter n’apparaissent pas – ces entreprises ont gardé pour elles l’accès à leurs données)

Remarque: ces bases de données de formation sont énormes, mais peu représentatives. Certaines cultures, certains groupes et certains sujets sont suréchantillonnés ; beaucoup d’autres sont injustement négligés. Et tous les biais, limitations et aspects toxiques de la culture internet apparaissent dans les données d’entraînement de l’IA.

  • Si vous avez un quelconque historique en ligne, l’opportunité d’auto-examen qu’offre la recherche du Post est irrésistible, comme si vous cherchiez votre propre nom sur Google (il existe un outil de recherche similaire appelé« Ai-je été formé? » pour des aides visuelles)
  • Lorsque vous trouverez votre poste dans la liste, vous vous demanderez probablement, comme je l’ai fait, « Est-ce ce que je voulais ? », « Pourquoi n’ai-je pas étéconsulté? » et « Et si j’avais su que cela allait arriver ? »

Soyez intelligent : l’appétit de l’IA pour les données de formation jette un éclairage nouveau sur les 30 ans d’histoire de l’internet populaire.

  • Les progrès actuels de l’IA ne seraient pas possibles sans la disponibilité des stocks numériques et des décharges d’informations, d’idées et de sentiments que l’internet a amené les gens à produire.
  • Mais nous produisons tout cela les uns pour les autres, pas pour l’IA.

De ce point de vue, l’existence de ces vastes « cadavres » de données a été une conséquence involontaire profondément importante de l’émergence du web lui-même.

  • En 1995, lorsqu’une génération est tombée amoureuse du « www » et du navigateur, ou dix ans plus tard, lorsqu’une autre génération a célébré l’avènement des blogs et de la « sagesse des foules », ce résultat était caché.
  • Au début des années 2010, les mouvements de la révolution de l’apprentissage automatique ont commencé à mettre certains experts mal à l’aise. Mais il fallait regarder très loin pour comprendre que l’ensemble du web était peut-être sur le point de devenir un terrain d’entraînement pour l’IA.

Aujourd’hui, cette conséquence involontaire est au cœur de notre expérience en ligne, nous rappelant que tout ce que nous faisons aujourd’hui avec et pour l’IA façonnera à son tour l’avenir d’une manière que nous ne pouvons pas prédire.

  • Par exemple: si nous déversons un flot de simulacres sur nos réseaux publics, nous risquons de décourager les gens de continuer à partager, voire à créer, leurs propres œuvres originales.
  • Les futurs modèles d’IA pourraient ainsi rester bloqués à jamais sur la production figée de l’humanité vers 2000-2020, sans rien apprendre de nouveau.

Avec le contenu d’Axios.