Les chatbots d’IA maîtrisent moins bien les langues autres que l’anglais, ce qui risque d’amplifier les préjugés existants en matière de commerce mondial et d’innovation.
PASCALE Fung, informaticien, imagine un avenir radieux où des assistants d’IA polyglottes comme ChatGPT surmontent les barrières linguistiques. Dans ce monde, les commerçants indonésiens qui ne parlent que les dialectes locaux pourraient attirer de nouveaux clients en présentant leurs produits en ligne en anglais. « Cela pourrait ouvrir des perspectives », déclare Mme Fung, avant de s’interrompre. Elle se rend compte du biais dans sa vision d’un avenir plus interconnecté : les achats assistés par l’IA seraient unilatéraux, car peu d’Américains se donneraient la peine d’utiliser la traduction par l’IA pour rechercher des produits dont la publicité est faite en indonésien. « Les Américains ne sont pas incités à apprendre une autre langue », explique-t-elle.
Tous les Américains ne correspondent pas à cette description – environ un sur cinq parle une autre langue à la maison – mais la domination de l’anglais dans le commerce mondial est réelle. Mme Fung, directrice du centre de recherche sur l’IA de l’université des sciences et technologies de Hong Kong, qui parle elle-même sept langues, constate ce biais dans son propre domaine. « Si vous ne publiez pas d’articles en anglais, vous n’êtes pas pertinent », dit-elle. « Les personnes dont l’anglais n’est pas la langue maternelle ont tendance à être pénalisées sur le plan professionnel
Mme Fung aimerait que l’IA change cela, et non qu’elle renforce encore la primauté de l’anglais. Elle fait partie d’une communauté mondiale de chercheurs en IA qui testent les capacités linguistiques de ChatGPT et de ses concurrents, et qui tirent la sonnette d’alarme face à la preuve qu’ils sont nettement moins performants dans les langues autres que l’anglais.
Bien que les chercheurs aient identifié des solutions possibles, les chatbots qui parlent principalement l’anglais continuent de se répandre. « L’une de mes plus grandes préoccupations est que nous allons exacerber les préjugés envers l’anglais et les anglophones », déclare Thien Huu Nguyen, informaticien à l’université de l’Oregon, qui se méfie également des chatbots biaisés. « Les gens suivront la norme et ne penseront pas à leur propre identité ou culture. Cela tue la diversité. Cela tue l’innovation. »
Au moins 15 documents de recherche publiés cette année sur le serveur de prépublication arXiv.org, dont des études cosignées par Nguyen et Fung, ont étudié le multilinguisme de grands modèles de langage, le type de logiciel d’IA qui alimente des expériences telles que ChatGPT. Les méthodologies varient, mais les résultats sont cohérents : les systèmes d’IA sont bons pour traduire d’autres langues en anglais, mais peinent à réécrire l’anglais dans d’autres langues, en particulier celles dont l’écriture n’est pas latine, comme le coréen.
Bien que l’on ait beaucoup parlé récemment de l’IA devenue surhumaine, les systèmes comme ChatGPT ont également des difficultés à mélanger couramment les langues dans la même phrase, par exemple l’anglais et le tamoul, comme le font quotidiennement des milliards de personnes dans le monde. L’étude de M. Nguyen indique que les tests effectués sur ChatGPT en mars ont montré que ses performances étaient nettement moins bonnes lorsqu’il s’agissait de répondre à des questions factuelles ou de résumer un texte complexe dans des langues autres que l’anglais, et qu’il était plus susceptible d’inventer des informations. le robot a répondu de manière inexacte à une question: « Il s’agit d’une phrase en anglais, il n’y a donc aucun moyen de la traduire en vietnamien ».
Malgré les limites de la technologie, les travailleurs du monde entier se tournent vers les chatbots pour obtenir de l’aide dans la création d’idées commerciales, la rédaction de courriels d’entreprise et l’amélioration du code des logiciels. Si les outils continuent de fonctionner au mieux en anglais, les personnes qui espèrent prendre pied dans l’économie mondiale risquent d’être davantage incitées à apprendre cette langue. Cela pourrait renforcer la spirale d’imposition et d’influence de l’anglais qui a commencé avec l’Empire britannique.
Les spécialistes de l’IA ne sont pas les seuls à s’inquiéter. Lors d’une audition au Congrès américain ce mois-ci, le sénateur californien Alex Padilla a demandé à Sam Altman, PDG d’OpenAI, le créateur de ChatGPT basé dans cet État, ce que son entreprise faisait pour combler le fossé linguistique. Environ 44 Californiens parlent une langue autre que l’anglais. M . Altman a déclaré qu’ il espérait s’associer avec des gouvernements et d’autres organisations pour acquérir des ensembles de données qui permettraient de renforcer les capacités linguistiques de ChatGPT et d’étendre ses avantages au « plus grand nombre de personnes possible ».
M. Padilla, qui parle également l’espagnol, doute que les systèmes permettent d’obtenir des résultats linguistiques équitables sans que les stratégies de leurs développeurs ne soient modifiées en profondeur. « Ces nouvelles technologies ont un grand potentiel pour l’accès à l’information, l’éducation et l’amélioration de la communication, et nous devons veiller à ce que la langue ne devienne pas un obstacle à ces avantages », déclare-t-il.
OpenAI ne cache pas que ses systèmes sont biaisés. La lettre d’information de l’entreprise sur GPT-4, son modèle linguistique le plus avancé, disponible pour les utilisateurs payants de ChatGPT, indique que la plupart des données sous-jacentes proviennent de l’anglais et que les efforts de l’entreprise pour régler et étudier les performances du modèle se sont principalement concentrés sur l’anglais « avec une perspective centrée sur les États-Unis ». Ou, comme l’a écrit un membre du personnel en décembre dernier sur le forum d’assistance de l’entreprise, après qu’un utilisateur a demandé si OpenAI ajouterait la prise en charge de l’espagnol à ChatGPT, « Tout bon résultat en espagnol est un bonus ». OpenAI a refusé de commenter cette question.
Jessica Forde, doctorante en informatique à l’université de Brown, a critiqué OpenAI pour ne pas avoir évalué en profondeur les capacités de GPT-4 dans d’autres langues avant de le lancer. Elle fait partie des chercheurs qui souhaiteraient que les entreprises rendent publiques leurs données de formation et suivent les progrès réalisés en matière d’assistance multilingue. « L’anglais a été tellement consolidé parce que les gens ont dit (et étudié), est-ce que cela peut agir comme un avocat en anglais ou un médecin en anglais ? Peut-il produire une comédie en anglais ? Mais ils ne se posent pas les mêmes questions pour les autres langues », ajoute-t-elle. Avec le contenu de Wired.
Um comentário
ChatGPT est le premier outil artificiel qui permet ce traduire du Français en Vietnamien et inversement avec une qualité jamais observée. Je peux lui poser une question avec des mots en plusieurs langues mélangées. Je ne comprends pas votre reproche. On peut en discuter davantage si vous souhaitez.