現在、ほとんどの機械翻訳(MT)システムは英語中心であるため、英語以外の2つの言語間で翻訳を行う場合、「ピボット」と呼ばれるプロセスが発生する。このプロセスでは、英語に翻訳した後にターゲット言語に翻訳することになるため、重要な性別や形式の情報が失われたり、待ち時間が長くなるなど、いわゆる「エラーカスケード」が発生する可能性がある。
多言語ニューラル機械翻訳(MNMT)は、待ち時間を短縮し、英語を介した翻訳時に発生するエラーのカスケードを回避することで、英語以外の言語間の翻訳の品質を向上させることを目的としている。しかし、多言語モデルの学習は簡単な作業ではない。言語が増えれば増えるほど、モデルのパラメータをめぐる競争が激しくなるからだ。
モデルのサイズを大きくすることは、学習が困難になったり、推論が遅くなったり、ストレージ要件が大きくなったりする可能性があるため、必ずしも実行可能な解決策ではない、とアップル社の研究者たちは2023年5月4日に発表された研究論文の中で説明している。
この問題を解決するために、研究者たちは「言語固有の変換レイヤー」(LSL)と呼ばれる新しいソリューションを提案した。この方法は、言語ごとのモデルの容量を増やし、推論のコストを増やすことなく言語間で知識を共有できるようにする。
提案されたアーキテクチャには、共有ウェイトと言語固有ウェイトがあり、エンコーダーの一部のレイヤーはソース言語またはターゲット言語に固有で、他のレイヤーは共有される。「LSLのアイデアは単純で、すべての言語間で同じパラメーターを共有する代わりに、各言語固有のレイヤー重みを持たせるというものです」と研究者たちは言う。
この方法は、「言語固有のコンポーネントと共有コンポーネントを持ち、さらにソース言語とターゲット言語に固有のコンポーネントを持つという利点があります」と研究者たちは付け加えた。
LSLは、言語ごとに1つの「通常の」Transformerエンコーダーレイヤーで構成されている。入力は、ソース言語またはターゲット言語に基づいて適切なサブレイヤーにルーティングされ、常に1つのサブレイヤーのみが使用される。
すべてのTransformerレイヤーをLSLに置き換えると、パラメータの数が増え、言語間の共有性が低下すると研究者たちは説明する。これを避けるには、LSLと “通常の “Transformer層を組み合わせて使用することを提案し、これによってモデルは、共有された重みと言語固有の重みを学習することができるとしている。
最適なアーキテクチャの発見
どのレイヤーを共有し、どのレイヤーをソース言語またはターゲット言語によってインデックス化されたLSLにするかを自動的に決定するために、研究者たちはニューラル・アーキテクチャ・サーチ(NAS)にヒントを得たアプローチを提案した。NASは、最適化アルゴリズムを用いて、特定のニーズに対するニューラルネットワークの最適なアーキテクチャを発見・設計する。
さらに研究者たちは、”通常の “Transformer層のみで構成される事前に訓練されたアーキテクチャから、すべてのエンコーダーの重みを初期化することで、より優れた性能を達成できることを発見した。研究チームは、言語固有のモジュールを初期化するために、参照アーキテクチャから事前に訓練された重みを使用した。
彼らによると、このアプローチは言語間の移行を最大化し、低リソース言語の言語固有コンポーネントの訓練不足を緩和し、LSLを持つアーキテクチャの収束速度を向上させる。
大幅な利益
実験では、英語、ドイツ語、スペイン語、フランス語、イタリア語、日本語、韓国語、ポルトガル語、スワヒリ語、中国語の10言語に焦点を当てた。提案されたアプローチは、英語やドイツ語のような高リソース言語でも、韓国語やスワヒリ語のような低リソース言語でも、大幅な向上をもたらした。
研究者らは、バイリンガルではなく多言語の翻訳システムを使用することで、英語を仲介語として使用することで生じるジェンダーバイアスを軽減できることを強調した。また、提案されたアーキテクチャは、同程度の性能のベースラインと比較して、より小さく、より高速にモデルを学習させることができるため、翻訳システムの効率を向上させることができると述べている。Slatorからのコンテンツを使用しています。