Une mise à jour de la politique de confidentialité de Google suggère que tout le contenu public sur Internet est disponible pour ses projets d’IA.

Google a mis à jour sa politique de confidentialité ce week-end, déclarant explicitement que l’entreprise se réserve le droit de collecter pratiquement tout ce que vous publiez en ligne pour construire ses outils d’IA. Si Google peut lire vos mots, considérez-les désormais comme appartenant à l’entreprise et attendez-vous à ce qu’ils soient stockés quelque part dans les entrailles d’un chatbot.

« Google utilise des informations pour améliorer nos services et développer de nouveaux produits, fonctionnalités et technologies qui bénéficient à nos utilisateurs et au public », indique la nouvelle politique de Google. « Par exemple, nous utilisons des informations disponibles publiquement pour aider à entraîner les modèles d’IA de Google et construire des produits et fonctionnalités tels que Google Traduction, Bard et des fonctionnalités d’IA dans le cloud. »

Heureusement pour les amateurs d’histoire, Google conserve un historique des modifications de ses conditions d’utilisation. La nouvelle formulation modifie une politique existante, précisant de nouvelles façons dont vos pensées en ligne peuvent être utilisées dans les outils d’IA du géant de la technologie.

Auparavant, Google déclarait que les données seraient utilisées « pour les modèles de langage », plutôt que « pour les modèles d’IA », et la politique précédente ne mentionnait que Google Traduction, tandis que Bard et les fonctionnalités d’IA dans le cloud sont maintenant également mentionnés.

C’est une clause inhabituelle dans une politique de confidentialité. Normalement, ces politiques décrivent les moyens par lesquels une entreprise utilise les informations que vous publiez sur ses propres services. Ici, il semble que Google se réserve le droit de collecter et d’utiliser des données publiées n’importe où sur le web public, comme si l’ensemble d’Internet était le terrain de jeu de l’IA de l’entreprise. Google n’a pas répondu immédiatement à une demande de commentaire.

Cette pratique soulève de nouvelles et intéressantes questions de confidentialité. Les gens comprennent généralement que les publications publiques sont publiques. Mais de nos jours, il faut avoir un nouveau modèle mental de ce que signifie écrire quelque chose en ligne. Il ne s’agit plus seulement de savoir qui peut voir les informations, mais de la façon dont elles peuvent être utilisées. Il y a de fortes chances que Bard et ChatGPT aient absorbé vos anciennes publications de blog ou critiques de restaurants datant de 15 ans. Pendant que vous lisez ceci, les chatbots pourraient répéter vos mots d’une manière imprévisible et difficile à comprendre.

L’une des complications moins évidentes de l’ère post-ChatGPT est la question de l’origine des données utilisées par les chatbots avide de données. Des entreprises comme Google et OpenAI ont collecté de vastes portions d’Internet pour alimenter leurs habitudes robotiques. Il n’est pas clair si cela est légal, et dans les années à venir, les tribunaux devront traiter des questions de droits d’auteur qui auraient semblé de la science-fiction il y a quelques années. En attendant, le phénomène affecte déjà les consommateurs de manière inattendue.

Les dirigeants de Twitter et Reddit se sentent particulièrement concernés par la question de l’IA et ont apporté des changements controversés pour restreindre leurs plateformes. Les deux entreprises ont désactivé l’accès gratuit à leurs API, ce qui permettait à quiconque de télécharger de grandes quantités de publications. Cela est supposé protéger les sites de médias sociaux contre d’autres entreprises qui collectent leur propriété intellectuelle, mais cela a eu d’autres conséquences.

Les modifications apportées aux API de Twitter et de Reddit ont rendu inutilisables les outils tiers que de nombreuses personnes utilisaient pour accéder à ces sites. Pendant un moment, il a même semblé que Twitter exigerait que des entités publiques telles que les services météorologiques, de transport et d’urgence paient pour publier un tweet, une mesure à laquelle l’entreprise a reculé après une vague de critiques.

Récemment, le grattage de données sur le web est devenu le bouc émissaire préféré d’Elon Musk. Musk a attribué plusieurs catastrophes récentes sur Twitter à la nécessité pour l’entreprise d'empêcher d’autres acteurs de collecter des données depuis son site, même lorsque les problèmes ne semblent pas être liés. Ce week-end, Twitter a limité le nombre de tweets que les utilisateurs peuvent voir par jour, rendant le service presque inutilisable. Musk a déclaré que c’était une réponse nécessaire au « grattage de données » et à la « manipulation du système ». Cependant, la plupart des experts en informatique conviennent que la limitation du taux était probablement une réponse de crise à des problèmes techniques découlant d’une mauvaise gestion, d’une incompétence ou des deux. Twitter n’a pas répondu aux questions de Gizmodo sur le sujet.

Sur Reddit, les effets des modifications apportées aux API ont été particulièrement bruyants. Reddit est essentiellement géré par des modérateurs non rémunérés chargés de maintenir des forums sains. Les modérateurs de grands subreddits dépendent souvent d’outils tiers pour leur travail, des outils qui sont construits sur des API qui ne sont désormais plus accessibles. Cela a provoqué une protestation massive, où les modérateurs ont essentiellement fermé Reddit. Bien que la controverse soit toujours en cours, elle est susceptible d’avoir des conséquences permanentes alors que les modérateurs rejetés abandonnent leurs fonctions.

Avec du contenu provenant de Gizmodo.