Actuellement, la plupart des systèmes de traduction automatique (TA) sont centrés sur l’anglais, ce qui entraîne un processus appelé « pivotement » lors de la traduction entre deux langues autres que l’anglais. Ce processus implique de traduire en anglais puis dans la langue cible, ce qui peut entraîner ce que l’on appelle des « cascades d’erreurs », telles que la perte d’informations importantes sur le genre et la formalité, ou l’augmentation du temps de latence.
La traduction automatique neuronale multilingue (MNMT) vise à améliorer la qualité des traductions entre des langues autres que l’anglais en réduisant le temps de latence et en évitant les cascades d’erreurs qui se produisent lors de la traduction en anglais. Cependant, la formation de modèles multilingues n’est pas une tâche facile, car plus on ajoute de langues, plus la concurrence pour les paramètres du modèle est grande.
L’augmentation de la taille du modèle n’est pas toujours une solution viable, car elle peut entraîner des difficultés de formation, une inférence plus lente et des besoins de stockage plus importants, expliquent les chercheurs d’Apple dans un document de recherche publié le 4 mai 2023.
Pour résoudre ce problème, les chercheurs ont proposé une nouvelle solution appelée « Language-Specific Transformation Layers » (LSLs). Cette méthode augmente la capacité du modèle par langue, ce qui permet de partager les connaissances entre les langues sans augmenter le coût de l’inférence.
L’architecture proposée comprend des poids partagés et spécifiques à la langue, où certaines couches du codeur sont spécifiques à la langue source ou cible, tandis que les autres couches sont partagées. « L’idée des LSL est simple : au lieu de partager les mêmes paramètres entre toutes les langues, les poids des couches sont spécifiques à chaque langue », expliquent les chercheurs.
Cette méthode « bénéficie de l’existence de composants spécifiques à la langue et partagés, ainsi que de composants spécifiques à la langue source et à la langue cible », ajoutent les chercheurs.
Les LSL se composent d’une couche de codage Transformer « normale » par langue. Les entrées sont acheminées vers la sous-couche appropriée en fonction de la langue source ou de la langue cible, et une seule sous-couche est utilisée à la fois.
Les chercheurs expliquent que le remplacement de toutes les couches Transformer par des LSL augmenterait le nombre de paramètres et réduirait le partage entre les langues. Pour éviter cela, ils suggèrent d’utiliser une combinaison de couches LSL et de couches Transformer « normales », ce qui permet au modèle d’apprendre des poids partagés et spécifiques à la langue.
Découvrir la meilleure architecture
Pour déterminer automatiquement quelles couches doivent être partagées et lesquelles doivent être des LSL indexées par la langue source ou la langue cible, les chercheurs ont proposé une approche inspirée de la recherche d’architecture neuronale (NAS). NAS utilise des algorithmes d’optimisation pour découvrir et concevoir la meilleure architecture pour un réseau neuronal répondant à un besoin spécifique.
En outre, les chercheurs ont constaté que l’initialisation de tous les poids de l’encodeur à partir d’une architecture pré-entraînée composée uniquement de couches de transformateurs « ordinaires » permettait d’obtenir de meilleures performances. Ils ont utilisé les poids pré-entraînés de leurs architectures de référence pour initialiser les modules spécifiques à la langue.
Selon eux, cette approche maximise le transfert entre les langues, atténue les composants spécifiques à la langue mal formés pour les langues à faibles ressources et améliore la vitesse de convergence pour les architectures avec LSL.
Des gains substantiels
Dans leurs expériences, les chercheurs se sont concentrés sur dix langues, dont l’anglais, l’allemand, l’espagnol, le français, l’italien, le japonais, le coréen, le portugais, le swahili et le chinois. L’approche proposée a permis d’obtenir des gains substantiels tant pour les langues à ressources élevées, comme l’anglais et l’allemand, que pour les langues à faibles ressources, comme le coréen ou le swahili.
Les chercheurs ont souligné que l’utilisation de systèmes de traduction multilingues, plutôt que bilingues, peut contribuer à réduire les préjugés sexistes dus à l’utilisation de l’anglais comme intermédiaire. Ils ont également indiqué que l’architecture qu’ils proposent permet d’obtenir des modèles plus petits et plus rapides à former par rapport à des modèles de référence de performance similaire, ce qui peut accroître l’efficacité des systèmes de traduction. Avec le contenu de Slator.