Google ne peut pas ou ne veut pas sévir contre le contenu généré par l’IA dans ses recherches, ce qui permet aux spammeurs de contenu d’en profiter. Et Google en profite.

Selon une étude réalisée par Newsguard, une entreprise technologique qui évalue la qualité des actualités et des informations sur le web, 141 marques sont susceptibles de placer des publicités programmatiques sur des sites de faible qualité générés par l’IA, qui ne font l’objet que de peu ou pas de surveillance humaine.

Newsguard classe ces sites dans la catégorie « Untrustworthy Artificial Intelligence Generated News » (UAIN). Selon l’étude, au cours du seul mois dernier, cette catégorie est passée de 49 à 217 sites explorés. L’identification révèle environ 25 nouveaux sites UAIN par semaine.

Les sites sont identifiés à l’aide de messages d’erreur provenant de modèles d’IA tels que ChatGPT, qui affichent « As AI language model » (modèle de langage d’IA) dans les réponses. Comme il s’agit d’une méthode intrinsèquement imprécise, Newsguard suppose qu’il existe un grand nombre de sites non détectés.

Ces sites utilisent des chatbots comme ChatGPT pour générer des articles ou réécrire des articles existants provenant de grands éditeurs. La qualité semble suffisamment bonne pour éviter d’être détectée par les systèmes anti-spam des entreprises de technologie publicitaire. L’un des sites web étudiés publierait plus de 1 200 articles par jour. Chaque article est utilisé comme espace publicitaire.

Google profite du spam généré par l’IA

Sur 55 des sites classés comme UAIN, 141 marques reconnues ont diffusé un total de 393 publicités programmatiques. Les annonces ont été diffusées aux États-Unis, en Allemagne, en France et en Italie.

Sur ces 393 annonces, 356, soit plus de 90 %, provenaient de Google Ads, le propre service de Google pour l’affichage d’annonces sur les sites web. Google gagne de l’argent pour chaque annonce diffusée.

Les annonceurs peuvent choisir de ne pas diffuser d’annonces sur certains sites web. Toutefois, cela nécessite des recherches approfondies et prend beaucoup de temps.

Avec Ads et AdSense, Google contrôle les offres des annonceurs et l’affichage sur les sites où les annonces des annonceurs sont diffusées.

Grâce à Google Search et à des services tels que News et Discover, Google influence également la visibilité des pages sur lesquelles ses propres annonces sont affichées.

Pour les éditeurs occidentaux en particulier, Google est, dans la plupart des cas, la source de trafic la plus importante. Être pénalisé ou ignoré par Google équivaut pratiquement à faire faillite.

Le dilemme du contenu de l’IA de Google

Google est confronté à un dilemme en ce qui concerne le contenu généré par l’IA : d’une part, une énorme quantité de contenu généré automatiquement menace son activité principale de recherche, car l’internet ouvert devient de plus en plus encombré et donc plus difficile à contrôler.

Cependant, il serait contradictoire pour Google de rejeter complètement le contenu généré par l’IA des autres, tout en intégrant à grande échelle du texte généré par l’IA dans l’expérience de recherche avec Search Generative Experience. Même si Google voulait dévaloriser le contenu généré par l’IA, il n’est pas certain que cela soit techniquement possible.

Récemment, Google a déclaré qu’il ne prendrait pas de mesures globales à l’encontre des contenus générés par l’IA s’ils étaient utiles. Toutefois, cela semble avoir changé : en avril 2022, le porte-parole du moteur de recherche de Google, John Mueller, a déclaré que le contenu d’IA était un contenu généré automatiquement qui violerait les directives pour les webmasters. « Nous considérons donc qu’il s’agit de spam », a déclaré M. Mueller.

Une partie de la vérité est peut-être que ce n’est pas une solution pour Google de classer le contenu généré par l’IA comme du spam alors que de larges pans des entreprises et de la société utilisent des générateurs de texte – et qu’une détection fiable du contenu généré par l’IA est coûteuse, voire impossible. Avec Bard, Google propose même son propre générateur de texte.

Le problème du spam n’est pas nouveau. Même avec GPT-3, les premiers utilisateurs ont créé de faux blogs avec un contenu générique sur les conseils de vie ou la transformation de soi, qui ont facilement attiré des milliers de lecteurs qui les ont même commentés, croyant qu’ils avaient affaire à des êtres humains.

Cependant, les recherches de Newsguard montrent pour la première fois que la croissance massive dans ce domaine est due à des modèles de langage de plus en plus puissants et accessibles.