Os chatbots de IA são menos fluentes em idiomas que não sejam o inglês, ameaçando amplificar o viés existente no comércio global e na inovação.

A CIENTISTA DA COMPUTAÇÃO PASCALE Fung consegue imaginar um futuro promissor em que assistentes de IA poliglotas, como o ChatGPT, superem as barreiras linguísticas. Nesse mundo, proprietários de lojas indonésias fluentes apenas em dialetos locais poderiam alcançar novos compradores ao listar seus produtos online em inglês. “Isso pode abrir oportunidades”, diz Fung – então ela pausa. Ela percebeu o viés em sua visão de um futuro mais interconectado: as compras auxiliadas por IA seriam unilaterais, porque poucos americanos se incomodariam em usar a tradução por IA para pesquisar produtos anunciados em indonésio. “Os americanos não são incentivados a aprender outro idioma”, diz ela.

Não todos os americanos se encaixam nessa descrição – cerca de um em cada cinco fala outro idioma em casa – mas a dominação do inglês no comércio global é real. Fung, diretora do Center for AI Research na Hong Kong University of Science and Technology, que ela mesma fala sete idiomas, vê esse viés em sua própria área. “Se você não publica artigos em inglês, você não é relevante”, diz ela. “Falantes não nativos de inglês tendem a ser punidos profissionalmente.”

Fung gostaria de ver a IA mudar isso, não reforçar ainda mais a primazia do inglês. Ela faz parte de uma comunidade global de pesquisadores de IA que testam as habilidades linguísticas do ChatGPT e de seus chatbots concorrentes e soam o alarme sobre evidências de que eles são significativamente menos capazes em idiomas que não o inglês.

Embora os pesquisadores tenham identificado algumas possíveis soluções, os chatbots que predominantemente falam inglês continuam se espalhando. “Uma das minhas maiores preocupações é que vamos agravar o viés para o inglês e para os falantes de inglês”, diz Thien Huu Nguyen, cientista da computação da University of Oregon, que também está atento aos chatbots tendenciosos. “As pessoas vão seguir a norma e não vão pensar em suas próprias identidades ou cultura. Isso acaba com a diversidade. Isso acaba com a inovação.”

Pelo menos 15 artigos de pesquisa publicados este ano no servidor de pré-publicação arXiv.org, incluindo estudos coautorados por Nguyen e Fung, investigaram o multilinguismo dos grandes modelos de linguagem, a espécie de software de IA que alimenta experiências como o ChatGPT. As metodologias variam, mas os resultados são consistentes: os sistemas de IA são bons em traduzir outros idiomas para o inglês, mas têm dificuldade em reescrever o inglês em outros idiomas – especialmente aqueles, como o coreano, com escritas não latinas.

Apesar de muita conversa recente sobre a IA se tornar super-humana, sistemas como o ChatGPT também têm dificuldade em misturar fluentemente idiomas na mesma frase, digamos, inglês e tâmil, como bilhões de pessoas no mundo fazem casualmente todos os dias. O estudo de Nguyen relata que testes realizados no ChatGPT em março mostraram que ele teve um desempenho significativamente pior ao responder a perguntas factuais ou resumir textos complexos em idiomas que não o inglês, e tinha mais probabilidade de fabricar informações. “Esta é uma frase em inglês, portanto, não há como traduzi-la para o vietnamita”, respondeu o robô de forma imprecisa a uma pergunta.

Apesar das limitações da tecnologia, trabalhadores ao redor do mundo estão recorrendo aos chatbots para obter ajuda na criação de ideias de negócios, redação de e-mails corporativos e aperfeiçoamento de código de software. Se as ferramentas continuarem a funcionar melhor em inglês, isso pode aumentar a pressão para aprender o idioma por parte das pessoas que esperam conseguir um lugar na economia global. Isso poderia reforçar uma espiral de imposição e influência do inglês, que teve início com o Império Britânico.

Não são apenas os estudiosos de IA que estão preocupados. Em uma audiência no Congresso dos Estados Unidos neste mês, o senador Alex Padilla, da Califórnia, perguntou a Sam Altman, CEO da OpenAI, criadora do ChatGPT sediada no estado, o que sua empresa está fazendo para reduzir a lacuna linguística. Cerca de 44% dos californianos falam um idioma que não é o inglês. Altman disse que esperava firmar parcerias com governos e outras organizações para adquirir conjuntos de dados que fortaleceriam as habilidades linguísticas do ChatGPT e ampliariam seus benefícios para “o maior número possível de pessoas”.

Padilla, que também fala espanhol, está cético quanto aos sistemas entregarem resultados linguísticos equitativos sem grandes mudanças nas estratégias de seus desenvolvedores. “Essas novas tecnologias têm grande potencial para acesso à informação, educação e comunicação aprimorada, e devemos garantir que a linguagem não se torne uma barreira para esses benefícios”, afirma.

A OpenAI não esconde o fato de que seus sistemas têm viés. O boletim informativo da empresa sobre o GPT-4, seu modelo de linguagem mais avançado, disponível para usuários pagantes do ChatGPT, afirma que a maioria dos dados subjacentes é proveniente do inglês e que os esforços da empresa para ajustar e estudar o desempenho do modelo se concentraram principalmente no inglês “com uma perspectiva centrada nos EUA”. Ou, como um membro da equipe escreveu em dezembro passado no fórum de suporte da empresa, após um usuário perguntar se a OpenAI adicionaria suporte em espanhol ao ChatGPT, “Quaisquer bons resultados em espanhol são um bônus”. A OpenAI se recusou a comentar sobre essa questão.

Jessica Forde, estudante de doutorado em ciência da computação na Universidade Brown, criticou a OpenAI por não avaliar minuciosamente as capacidades do GPT-4 em outros idiomas antes de lançá-lo. Ela está entre os pesquisadores que gostariam que as empresas explicitem publicamente seus dados de treinamento e acompanhem o progresso no suporte multilíngue. “O inglês tem sido tão consolidado porque as pessoas têm dito (e estudado), pode isso atuar como um advogado em inglês ou um médico em inglês? Pode isso produzir uma comédia em inglês? Mas eles não estão fazendo as mesmas perguntas sobre outros idiomas”, diz ela. Com conteúdo da Wired.