Atualmente, a maioria dos sistemas de tradução automática (MT) está centrada no inglês, resultando em um processo chamado de “pivoting” ao traduzir entre dois idiomas que não sejam o inglês. Esse processo envolve traduzir para o inglês e depois traduzir para o idioma de destino, o que pode levar a chamados “cascades de erros”, como perda de informações importantes sobre gênero e formalidade, ou aumento da latência.
A Tradução Automática Neural Multilíngue (MNMT) tem como objetivo melhorar a qualidade das traduções entre idiomas que não sejam o inglês, reduzindo a latência e evitando os cascades de erros que ocorrem ao traduzir por meio do inglês. No entanto, treinar modelos multilíngues não é uma tarefa fácil, pois quanto mais idiomas são adicionados, maior é a competição pelos parâmetros do modelo.
Aumentar o tamanho do modelo nem sempre é uma solução viável, pois pode levar a dificuldades no treinamento, inferência mais lenta e maiores requisitos de armazenamento, explicaram pesquisadores da Apple em um artigo de pesquisa publicado em 4 de maio de 2023.
Para resolver esse problema, os pesquisadores propuseram uma nova solução chamada “Camadas Transformadoras Específicas de Idioma” (LSLs, na sigla em inglês). Este método aumenta a capacidade do modelo por idioma, permitindo o compartilhamento de conhecimento entre os idiomas sem aumentar o custo da inferência.
A arquitetura proposta inclui pesos compartilhados e específicos de idioma, onde algumas camadas do codificador são específicas do idioma de origem ou de destino, enquanto as demais camadas são compartilhadas. “A ideia das LSLs é simples: em vez de compartilhar os mesmos parâmetros entre todos os idiomas, ter os pesos da camada específicos para cada idioma”, disseram os pesquisadores.
Esse método “se beneficia de ter componentes específicos de idioma e compartilhados, assim como de ter componentes específicos para o idioma de origem e o idioma de destino”, acrescentaram os pesquisadores.
As LSLs consistem em uma camada de codificador “regular” Transformer por idioma. A entrada é encaminhada para a subcamada apropriada com base no idioma de origem ou de destino, e apenas uma subcamada é usada em determinado momento.
Substituir todas as camadas do Transformer por LSLs aumentaria o número de parâmetros e diminuiria o compartilhamento entre os idiomas, explicaram os pesquisadores. Para evitar isso, eles sugerem usar uma combinação de LSLs e camadas “regulares” do Transformer, o que permite que o modelo aprenda pesos compartilhados e específicos de idioma.
Descobrindo a Melhor Arquitetura
Para determinar automaticamente quais camadas devem ser compartilhadas e quais devem ser LSLs indexadas por idioma de origem ou destino, os pesquisadores propuseram uma abordagem inspirada na busca de arquitetura neural (NAS, na sigla em inglês). NAS utiliza algoritmos de otimização para descobrir e projetar a melhor arquitetura para uma rede neural para uma necessidade específica.
Além disso, os pesquisadores descobriram que inicializar todos os pesos do codificador a partir de uma arquitetura pré-treinada consistindo apenas de camadas “regulares” do Transformer ajudou a obter um desempenho melhor. Eles utilizaram pesos pré-treinados de suas arquiteturas de referência para inicializar os módulos específicos de idioma.
De acordo com eles, essa abordagem maximiza a transferência entre idiomas, mitiga os componentes específicos de idioma pouco treinados para idiomas de baixo recurso e melhora a velocidade de convergência para arquiteturas com LSLs.
Ganhos Substanciais
Em seus experimentos, eles se concentraram em dez idiomas, incluindo inglês, alemão, espanhol, francês, italiano, japonês, coreano, português, suaíli e chinês. A abordagem proposta resultou em ganhos substanciais tanto para idiomas de alto recurso, como inglês e alemão, quanto para idiomas de baixo recurso, como coreano ou suaíli.
Os pesquisadores destacaram que o uso de sistemas de tradução multilíngue, em vez de bilíngue, pode ajudar a reduzir o viés de gênero que surge devido ao uso do inglês como intermediário. Eles também afirmaram que sua arquitetura proposta pode resultar em modelos menores e mais rápidos de treinar em comparação com baselines de desempenho similar, o que pode aumentar a eficiência dos sistemas de tradução. Com conteúdo da Slator.