Los chatbots de IA son menos fluidos en idiomas que no sean el inglés, lo que amenaza con amplificar el sesgo existente en el comercio global y la innovación.

La científica de la computación Pascale Fung puede imaginar un futuro prometedor en el que los asistentes de IA políglotas, como ChatGPT, superen las barreras lingüísticas. En ese mundo, los propietarios de tiendas indonesias que solo hablan dialectos locales podrían llegar a nuevos compradores al listar sus productos en línea en inglés. «Esto puede abrir oportunidades», dice Fung, pero luego se detiene. Se da cuenta del sesgo en su visión de un futuro más interconectado: las compras asistidas por IA serían unilaterales, ya que a pocos estadounidenses les importaría usar la traducción por IA para buscar productos anunciados en indonesio. «Los estadounidenses no tienen incentivos para aprender otro idioma», dice ella.

No todos los estadounidenses se ajustan a esta descripción, aproximadamente uno de cada cinco habla otro idioma en casa, pero la dominación del inglés en el comercio global es real. Fung, directora del Center for AI Research en la Hong Kong University of Science and Technology, que habla siete idiomas, ve este sesgo en su propio campo. «Si no publicas artículos en inglés, no eres relevante», dice. «Los hablantes no nativos de inglés tienden a ser castigados profesionalmente».

Fung quisiera ver que la IA cambie esto en lugar de reforzar aún más la supremacía del inglés. Ella forma parte de una comunidad global de investigadores de IA que prueban las habilidades lingüísticas de ChatGPT y otros chatbots competidores, y están alertando sobre la evidencia de que son significativamente menos capaces en idiomas que no sean el inglés.

Aunque los investigadores han identificado algunas posibles soluciones, los chatbots que principalmente hablan inglés siguen proliferando. «Una de mis mayores preocupaciones es que agravaremos el sesgo hacia el inglés y los hablantes de inglés», dice Thien Huu Nguyen, científico de la computación de la University of Oregon, quien también está atento a los chatbots sesgados. «Las personas seguirán la norma y no pensarán en sus propias identidades o culturas. Esto acaba con la diversidad. Esto acaba con la innovación».

Al menos 15 artículos de investigación publicados este año en el servidor de preimpresión arXiv.org, incluidos estudios coautorizados por Nguyen y Fung, han investigado el multilingüismo de los grandes modelos de lenguaje, el tipo de software de IA que impulsa experiencias como ChatGPT. Las metodologías varían, pero los resultados son consistentes: los sistemas de IA son buenos para traducir otros idiomas al inglés, pero tienen dificultades para reescribir el inglés en otros idiomas, especialmente aquellos como el coreano que tienen escrituras no latinas.

A pesar de mucha conversación reciente sobre la IA volviéndose superhumana, sistemas como ChatGPT también tienen dificultades para mezclar idiomas con fluidez en la misma frase, por ejemplo, inglés y tamil, como hacen casualmente miles de millones de personas en el mundo todos los días. El estudio de Nguyen informa que las pruebas realizadas en ChatGPT en marzo mostraron un rendimiento significativamente peor al responder preguntas de hechos o resumir textos complejos en idiomas que no son el inglés, y tenía más probabilidades de fabricar información. «Esta es una frase en inglés, por lo tanto, no se puede traducir al vietnamita», respondió el robot de manera imprecisa a una pregunta.

A pesar de las limitaciones de la tecnología, los trabajadores de todo el mundo están recurriendo a los chatbots para obtener ayuda en la generación de ideas de negocios, redacción de correos electrónicos corporativos y mejora de código de software. Si las herramientas siguen funcionando mejor en inglés, esto puede aumentar la presión para aprender el idioma por parte de las personas que esperan encontrar un lugar en la economía global. Esto podría reforzar una espiral de imposición e influencia del inglés, que comenzó con el Imperio Británico.

No solo los académicos de IA están preocupados. En una audiencia en el Congreso de los Estados Unidos este mes, el senador Alex Padilla de California preguntó a Sam Altman, CEO de OpenAI, creadora de ChatGPT con sede en el estado, qué está haciendo su empresa para reducir la brecha lingüística. Aproximadamente el 44% de los californianos hablan un idioma que no es el inglés. Altman dijo que esperaba establecer asociaciones con gobiernos y otras organizaciones para adquirir conjuntos de datos que fortalecerían las habilidades lingüísticas de ChatGPT y ampliarían sus beneficios para «el mayor número posible de personas».

Padilla, quien también habla español, es escéptico acerca de que los sistemas entreguen resultados lingüísticos equitativos sin cambios significativos en las estrategias de sus desarrolladores. «Estas nuevas tecnologías tienen un gran potencial para el acceso a la información, la educación y la comunicación mejorada, y debemos asegurarnos de que el lenguaje no se convierta en una barrera para estos beneficios», afirma.

OpenAI no oculta el hecho de que sus sistemas tienen sesgos. El boletín informativo de la empresa sobre GPT-4, su modelo de lenguaje más avanzado disponible para usuarios de pago de ChatGPT, afirma que la mayoría de los datos subyacentes provienen del inglés y que los esfuerzos de la empresa para ajustar y estudiar el rendimiento del modelo se han centrado principalmente en el inglés «con una perspectiva centrada en Estados Unidos». O, como escribió un miembro del equipo en diciembre pasado en el foro de soporte de la empresa, después de que un usuario preguntara si OpenAI agregaría soporte en español a ChatGPT, «Cualquier buen resultado en español es un bono». OpenAI se negó a comentar sobre este asunto.

Jessica Forde, estudiante de doctorado en ciencias de la computación en la Universidad Brown, criticó a OpenAI por no evaluar minuciosamente las capacidades de GPT-4 en otros idiomas antes de lanzarlo. Ella está entre los investigadores que desearían que las empresas revelen públicamente sus datos de entrenamiento y realicen un seguimiento del progreso en el soporte multilingüe. «El inglés ha sido tan consolidado porque la gente ha estado diciendo (y estudiando), ¿puede esto actuar como un abogado en inglés o un médico en inglés? ¿Puede esto producir una comedia en inglés? Pero no están haciendo las mismas preguntas sobre otros idiomas», dice. Con contenido de Wired.