メタは、大規模な言語モデルが指示に従う能力を反復的に向上させる方法を開発しました。この方法は、高価な人間の注釈やより強力なモデルの蒸留に依存せずに、大規模な言語モデルが指示に従う能力を向上させることを可能にします。

メタの研究では、「指示の逆翻訳」という新しい技術を提案しています。この技術により、LLaMaなどの大規模な言語モデルが指示に従う能力を向上させることができます。この技術は、高価な人間の注釈やGPT-4などのより強力なモデルの蒸留に依存せずに、大規模な言語モデルを調整する方法です。

「指示の逆翻訳」は自己監督による指示の調整です


「指示の逆翻訳」は、自己増強と自己修復を組み合わせた2段階のプロセスです。自己増強の段階では、言語モデルは未ラベルのテキストコーパスから指示-応答の候補ペアを生成するために使用されます。各未ラベルのテキストに対して、モデルはその応答を引き起こす可能性のある指示を予測しようとします。これにより、合成された多くの例のセットが得られます。

次に、自己修復の段階では、モデルを使用してこれらの候補ペアをスコアリングし、低品質なものをフィルタリングします。モデルはこれらの例を評価し、スコアが最も高いサブセットのみを保持します。これらの候補データの生成と最適なデータの選別に関する手順が繰り返されます。各反復により、より優れたモデルが生成され、次のラウンドに選択されるデータの品質が向上することができます。

この反復的な自己トレーニングのプロセスにより、モデルはより良い指示を生成する方法を学び、高品質なデモンストレーションの例を識別する能力も向上します。

メタのハンプバックモデル、アントフィクスのクロードを追跡指標ベンチマークで上回る

Meta社の研究者は、このアプローチが指示の追跡において強力なパフォーマンスを実現することを示しており、同じLLaMaモデルを使用した以前の研究を凌駕しています。その結果、Humpback 65Bというモデルは、LLaMaメソッドを非蒸留で使用したAlpaca指示追跡ベンチマークで、Anthropics Claude、Guanaco、LIMA、Falcon-Instructなどのモデルのパフォーマンスを上回るトップクラスの結果を達成しています。

今後の研究では、チームはこの方法をさらにスケーリングする予定であり、「非ラベル付きのより大きなコーパスを考慮することにより、さらなる利益が得られる可能性がある」と述べています。