新手法は大規模言語モデルの真実性を大幅に向上させ、これらのモデルが明らかにする以上のことを知っていることを示す。

ハーバード大学の研究者たちは、大規模言語モデルの真実性や事実性を向上させ、GitHubで「Honest LLaMA」と呼ばれている「Intervention During Inference(ITI)」と呼ばれる技術を開発した。この研究は、ChatGPTや他のチャットボットが、ある文脈では正しい情報を提供するが、他の文脈では誤りがある、つまり、事実はそこにあるが、モデルの推論で失われることがあるという事実に動機づけられている。

チームは、TruthfulQAベンチマークの一部を使用した事実性テストで高い精度を持つニューラルネットワークのセクションを特定するために線形プローブを利用します。チームがトランスフォーマーのアテンションヘッドのいくつかでこれらのセクションを特定すると、ITIはテキスト生成中にこれらのアテンションヘッドに沿ってモデルの活性化をシフトさせる。

ITIによりAlpacaの真実性が大幅に向上

研究チームは、TruthfulQAベンチマークにおけるオープンソースモデルAlpacaの精度が、ITIによって32.5%から65.1%に向上することを実証している。しかし、モデルの活性化のシフトが大きすぎると、否定的な結果をもたらすこともあります。この事実性と有用性のバランスは、ITIの介入強度を変えることで調整できる。

A equipe utiliza o ITI para o Honest-LLaMA (azul), que fornece respostas mais corretas do que o LLaMA (vermelho).
研究チームは、LLaMA(赤)よりも多くの正解を提供するHonest-LLaMA(青)にITIを活用している。

ITIは強化学習と類似点があり、人間によるフィードバックも事実性を高めることができる。しかし、RLHFは、モデルが人間の期待に合わせようとするため、誤解を招く行動を促す可能性もある。研究者らは、ITIにはこのような問題はなく、学習データと計算能力もほとんど必要としないため、侵襲性も低いと主張している。

大規模な言語モデルの研究は、”真実 “のより良い理解につながる可能性がある。

研究チームは現在、この手法を実世界のチャット環境における他のデータセットにどのように一般化できるかを理解し、事実性と実用性のバランスについてより深い理解を深めたいと考えている。さらに将来的には、手作業で識別したネットワークセグメントを自己教師付きで学習させることで、この手法をよりスケーラブルなものにできるかもしれない。

最後に、研究者たちは、このトピックがより広く貢献できることも強調している。”科学的な観点からは、「真実」のような複雑な属性表現の多次元的な幾何学的構造をよりよく理解することは興味深い”。

コードと詳細情報はGitHubで公開されている。