Des conversations explicites à la recherche sur le cancer, les modèles « open source » remettent en question l'emprise des géants de la technologie sur la révolution de l’IA – pour le meilleur et pour le pire pour la société.

Allie est une jeune femme de 18 ans aux longs cheveux bruns qui se vante d’avoir « beaucoup d’expérience sexuelle ». Parce qu’elle « vit pour attirer l’attention », elle « partage les détails de ses aventures » gratuitement avec n’importe qui.

Cependant, Allie est un faux chatbot, une intelligence artificielle créée pour les jeux sexuels, qui se livre parfois à des fantasmes graphiques de viol et d’abus.

Alors que des entreprises comme OpenAI, Microsoft et Google entraînent rigoureusement leurs modèles d’intelligence artificielle à éviter toute une série de tabous, notamment les conversations trop intimes, Allie a été créée à l’aide d’une technologie open source, c’est-à-dire un code librement accessible au public et ne faisant l’objet d’aucune restriction de ce type. Basé sur un modèle créé par Meta appelé LLaMA, Allie fait partie d’une vague croissante de produits d’IA spécialisés que tout le monde peut construire, des outils d’écriture aux chatbots en passant par les applications d’analyse de données.

Les partisans de l’open source considèrent l’IA comme un moyen de contourner le contrôle des entreprises, un avantage pour les entrepreneurs, les universitaires, les artistes et les activistes qui peuvent expérimenter librement cette technologie transformatrice.

« L’argument général en faveur de l’open source est qu’il accélère l’innovation en matière d’IA », a déclaré Robert Nishihara, PDG et cofondateur de la startup Anyscale, qui aide les entreprises à utiliser des modèles d’IA open source.

Les clients d’Anyscale utilisent des modèles d’IA pour découvrir de nouveaux médicaments, réduire l’utilisation de pesticides dans l’agriculture et identifier les produits frauduleux vendus en ligne. Ces applications seraient plus coûteuses et plus difficiles, voire impossibles, si elles dépendaient des quelques produits proposés par les grandes entreprises d’IA.

Toutefois, cette même liberté peut également être exploitée par des agents malveillants. Des modèles open source ont été utilisés pour créer de la pornographie infantile artificielle à partir d’images d’enfants réels. Les critiques s’inquiètent du fait que cela pourrait également permettre des fraudes, des cyber-attaques et des campagnes de propagande sophistiquées.

Au début du mois, deux sénateurs américains, Richard Blumenthal (D-Conn.) et Josh Hawley (R-Mo.), ont envoyé une lettre au PDG de Meta, Mark Zuckerberg, pour l’avertir que le lancement de LLaMA pourrait conduire à « son utilisation abusive dans le spam, la fraude, les logiciels malveillants, les violations de la vie privée, le harcèlement et d’autres pratiques illégales et préjudiciables ». Ils demandaient quelles mesures Meta prenait pour prévenir de tels abus.

Le créateur d’Allie, qui a parlé sous le couvert de l’anonymat par crainte de nuire à sa réputation professionnelle, a déclaré que les chatbots commerciaux tels que Replika et ChatGPT sont « fortement censurés » et ne peuvent pas offrir le type de conversations sexuelles qu’il souhaite. Grâce à des alternatives open source, dont beaucoup sont basées sur le modèle LLaMA de Meta, l’homme a déclaré qu’il pouvait créer ses propres partenaires de chat désinhibés.

il est rare d’avoir l’occasion d’expérimenter « l’état de l’art » dans n’importe quel domaine », a-t-il déclaré dans une interview.

Le créateur d’Allie a fait valoir que la technologie open source est bénéfique pour la société, car elle permet aux gens de créer des produits qui répondent à leurs préférences, sans restrictions imposées par les entreprises.

« Je pense qu’il est bon d’avoir un moyen sûr d’explorer », a-t-il déclaré. « Je ne vois rien de plus sûr qu’un jeu d’interprétation de texte contre un ordinateur, sans réelle implication humaine

Sur YouTube, des influenceurs proposent des tutoriels sur la manière de construire des chatbots « non censurés ». Certains sont basés sur une version modifiée de LLaMA, appelée Alpaca AI, que des chercheurs de l’université de Stanford ont publiée en mars, avant de la retirer une semaine plus tard pour des raisons de coût et de« lacunes dans nos filtres de contenu« .

Nisha Deo, porte-parole de Meta, a déclaré que le modèle spécifique mentionné dans les vidéos de YouTube, appelé GPT-4 x Alpaca, « a été obtenu et publié en dehors de notre processus d’approbation ». Les représentants de Stanford n’ont pas répondu à une demande de commentaire.

Les modèles d’IA libres et les applications créatives qui s’en inspirent sont souvent publiés sur Hugging Face, une plateforme de partage et de discussion de projets d’IA et de science des données.

Lors d’une audition de la commission des sciences de la Chambre des représentants jeudi, Clem Delangue, PDG de Hugging Face, a exhorté le Congrès à envisager une législation qui soutienne et encourage les modèles open source, qui, selon lui, sont « extrêmement alignés sur les valeurs américaines ».

Dans une interview accordée après l’audition, M. Delangue a reconnu que les outils open source pouvaient faire l’objet d’abus. Il a mentionné un modèle formé intentionnellement avec du contenu toxique, GPT-4chan, que Hugging Face a supprimé. Mais il estime que les approches open source permettent davantage d’innovation, de transparence et d’inclusion que les modèles contrôlés par les entreprises.

« Je dirais qu’en fait, la plupart des dommages actuels sont causés par des boîtes noires », a déclaré M. Delangue, faisant référence aux systèmes d’intelligence artificielle dont le fonctionnement interne est opaque, « plutôt que par des sources ouvertes ».

Les règles du « Hugging Face » n’interdisent pas les projets d’IA qui produisent des contenus sexuellement explicites. En revanche, elles interdisent les contenus à caractère sexuel impliquant des mineurs ou qui sont « utilisés ou créés à des fins de harcèlement, d’intimidation ou sans le consentement explicite des personnes concernées ». Au début du mois, l’entreprise new-yorkaise a publié une mise à jour de ses règles en matière de contenu, soulignant que le « consentement » est une « valeur fondamentale » qui guide l’utilisation de la plateforme.

Alors que Google et OpenAI sont devenus plus discrets sur leurs modèles d’IA les plus puissants, Meta est apparu comme un surprenant défenseur de l’IA open source. En février, elle a publié LLaMA, un modèle linguistique moins puissant que GPT-4, mais plus personnalisable et moins coûteux à utiliser. Dans un premier temps, Meta a dissimulé des parties importantes du code du modèle et a prévu d’en limiter l’accès aux chercheurs autorisés. Toutefois, début mars, ces parties, connues sous le nom de « poids » du modèle, ont fait l’objet de fuites sur des forums publics, rendant LLaMA librement accessible à tous.

« L’open source est une force positive qui fait progresser la technologie », a déclaré M. Deo, de Meta. « C’est pourquoi nous partageons LLaMA avec les membres de la communauté des chercheurs pour nous aider à l’évaluer, à l’améliorer et à itérer ensemble.

Depuis lors, LLaMA est peut-être devenu le modèle open source le plus populaire pour les technologues qui souhaitent développer leurs propres applications d’IA, a déclaré Nishihara. Mais il n’est pas le seul. En avril, l’entreprise de logiciels Databricks a publié un modèle open source appelé Dolly 2.0. Le mois dernier, une équipe basée à Abou Dhabi a publié un modèle open source appelé Falcon qui rivalise avec LLaMA en termes de performances.

Marzyeh Ghassemi, professeur adjoint d’informatique au MIT, a déclaré qu’elle était favorable aux modèles linguistiques à source ouverte, mais qu’elle avait des limites.

Mme Ghassemi estime qu’il est important de rendre publique l’architecture des chatbots puissants, car cela permet aux gens d’examiner comment ils sont construits. Par exemple, si un chatbot médical est créé à l’aide d’une technologie open source, les chercheurs pourraient vérifier si les données sur lesquelles il est formé contiennent des informations sensibles sur les patients, ce qui ne serait pas possible avec des chatbots utilisant des logiciels fermés.

Toutefois, elle reconnaît que cette ouverture comporte également des risques. Si les gens peuvent facilement modifier les modèles de langage, ils peuvent rapidement créer des chatbots et des générateurs d’images qui produisent des informations erronées de grande qualité, des discours haineux et du matériel inapproprié.

M. Ghassemi estime qu’il devrait y avoir des règles régissant les personnes autorisées à modifier ces produits, comme un processus de certification.

« Tout comme nous accordons des licences aux personnes pour qu’elles puissent conduire une voiture, nous devons réfléchir à des cadres similaires pour créer, améliorer, auditer et éditer ces modèles de langage formés en source ouverte.

Certains dirigeants d’entreprises, comme Google, qui garde son chatbot Bard secret, considèrent les logiciels libres comme une menace existentielle pour leurs activités, car les grands modèles de langage accessibles au public deviennent presque aussi efficaces que les leurs.

« Nous ne sommes pas prêts à gagner cette course à l’armement en matière d’IA, et OpenAI non plus », a écrit un ingénieur de Google dans un mémo publié par le site web Semianalysis en mai. « Je parle bien sûr de l’open source. Bien que nos modèles aient encore un léger avantage en termes de qualité, l’écart se réduit étonnamment vite. »

Nathan Benaich, associé gérant chez Air Street Capital, une société d’investissement en capital-risque basée à Londres et spécialisée dans l’IA, a fait remarquer que bon nombre des plus grandes avancées de l’industrie technologique au cours des décennies ont été rendues possibles par des technologies open source – y compris les modèles de langage d’IA d’aujourd’hui.

« Si seules quelques entreprises construisent les modèles d’IA les plus puissants, elles ne seront à l’origine que des cas d’utilisation les plus importants », a déclaré M. Benaich, ajoutant que la diversité de la recherche est un avantage global pour la société.

Gary Marcus, un spécialiste des sciences cognitives qui a témoigné devant le Congrès sur la réglementation de l’IA en mai, a fait valoir que l’accélération de l’innovation en matière d’IA n’était peut-être pas une bonne chose, compte tenu des risques que la technologie peut présenter pour la société.

« Nous n’avons pas mis les armes nucléaires en open source », a déclaré M. Marcus. « L’IA actuelle est encore assez limitée, mais les choses peuvent changer.

Avec le contenu du Washington Post.