Atualmente, la mayoría de los sistemas de traducción automática (MT) se centran en el inglés, lo que resulta en un proceso llamado «pivoting» al traducir entre dos idiomas que no sean el inglés. Este proceso implica traducir al inglés y luego traducir al idioma de destino, lo que puede llevar a lo que se conoce como «cascadas de errores», como la pérdida de información importante sobre género y formalidad, o el aumento de la latencia.
La Traducción Automática Neural Multilingüe (MNMT) tiene como objetivo mejorar la calidad de las traducciones entre idiomas que no sean el inglés, reduciendo la latencia y evitando las cascadas de errores que ocurren al traducir a través del inglés. Sin embargo, entrenar modelos multilingües no es una tarea fácil, ya que a medida que se agregan más idiomas, aumenta la competencia por los parámetros del modelo.
Aumentar el tamaño del modelo no siempre es una solución viable, ya que puede generar dificultades en el entrenamiento, inferencia más lenta y mayores requisitos de almacenamiento, según explicaron los investigadores de Apple en un artículo de investigación publicado el 4 de mayo de 2023.
Para resolver este problema, los investigadores propusieron una nueva solución llamada «Capas Transformadoras Específicas del Idioma» (LSLs por sus siglas en inglés). Este método aumenta la capacidad del modelo por idioma, permitiendo el intercambio de conocimientos entre los idiomas sin aumentar el costo de la inferencia.
La arquitectura propuesta incluye pesos compartidos y específicos por idioma, donde algunas capas del codificador son específicas del idioma de origen o destino, mientras que las demás capas son compartidas. «La idea de las LSLs es simple: en lugar de compartir los mismos parámetros entre todos los idiomas, tener pesos de capa específicos para cada idioma», dijeron los investigadores.
Este método «se beneficia de tener componentes específicos y compartidos por idioma, así como de tener componentes específicos para el idioma de origen y el idioma de destino», agregaron los investigadores.
Las LSLs consisten en una capa «regular» de codificador Transformer por idioma. La entrada se dirige a la subcapa correspondiente según el idioma de origen o destino, y solo se utiliza una subcapa en un momento determinado.
Sustituir todas las capas del Transformer por LSLs aumentaría el número de parámetros y disminuiría el compartimiento entre los idiomas, explicaron los investigadores. Para evitar esto, sugieren utilizar una combinación de LSLs y capas «regulares» del Transformer, lo que permite que el modelo aprenda pesos compartidos y específicos por idioma.
Descubriendo la Mejor Arquitectura
Para determinar automáticamente qué capas deben ser compartidas y cuáles deben ser LSLs indexadas por idioma de origen o destino, los investigadores propusieron un enfoque inspirado en la búsqueda de arquitectura neural (NAS, por sus siglas en inglés). NAS utiliza algoritmos de optimización para descubrir y diseñar la mejor arquitectura para una red neuronal según una necesidad específica.
Además, los investigadores descubrieron que inicializar todos los pesos del codificador a partir de una arquitectura preentrenada que consiste únicamente en capas «regulares» del Transformer ayudó a obtener un mejor rendimiento. Utilizaron pesos preentrenados de sus arquitecturas de referencia para inicializar los módulos específicos de idioma.
De acuerdo con ellos, este enfoque maximiza la transferencia entre idiomas, mitiga los componentes específicos de idioma poco entrenados para idiomas con pocos recursos y mejora la velocidad de convergencia para arquitecturas con LSLs.
Ganancias Sustanciales
En sus experimentos, se enfocaron en diez idiomas, incluyendo inglés, alemán, español, francés, italiano, japonés, coreano, portugués, suajili y chino. El enfoque propuesto resultó en ganancias sustanciales tanto para idiomas de alto recurso como inglés y alemán, como para idiomas de bajo recurso como coreano o suajili.
Los investigadores destacaron que el uso de sistemas de traducción multilingüe, en lugar de bilingüe, puede ayudar a reducir el sesgo de género que surge debido al uso del inglés como intermediario. También afirmaron que su arquitectura propuesta puede dar lugar a modelos más pequeños y más rápidos de entrenar en comparación con los baselines de rendimiento similar, lo que puede aumentar la eficiencia de los sistemas de traducción. Con contenido de Slator.