ChatGPTの動作が3月から6月の間にどのように変化したかを調べた研究があり、いくつかの重大な変化を発見した。

スタンフォード大学とカリフォルニア大学バークレー校の研究者は、GPT-3.5とGPT-4の古いバージョンと新しいバージョンのパフォーマンスを4つの異なるタスクで評価した:

  1. 数学の問題を解く
  2. トリッキーで危険な質問への回答
  3. コード生成
  4. 視覚的思考

この研究は、2つのバージョンの性能と挙動が、時には大幅に異なることを示している。例えば、GPT-4(2023年3月)は素数を97.6 の精度で素数を認識できるが、GPT-4(2023年6月)は失敗し(2.4 ccuracy)、推論連鎖プロンプトを無視している。一方、GPT-3.5(2023年6月)は、このタスクでGPT-3.5(2023年3月)よりも大幅に優れた性能を示した。

GPT-4では、6月に直接実行可能なコードが大幅に減少しています。

GPT-4では、直接実行可能な世代の割合が、3月の5,200万から6月の1,000万へと減少しています。GPT-3.5の落ち込みも大きかった(22%から2%へ)。理由:3月はGPT-4もGPT-3.5もユーザーの指示に従った(「コードだけ」)ため、直接実行可能な世代が生成された。

しかし6月には、コードの前後に三重引用符が追加され、手作業でなければ直接実行できないようになった。生成されたコードの品質は同程度のようだが、チームは詳細な比較を行っていない。

研究チームはまた、GPT-4が6月にトリッキーな問題を解答することが少なく、視覚的推論タスクの成績がわずかに良いことを示している。また、GPT-3.5でも若干の改善が見られました。

研究チームは、LLMサービスのモニタリング分析を導入するよう企業に推奨している。

GPT-4は3月よりも悪化しているのか?この質問に対する明確な答えは出ていないが、6月にリリースされたバージョンには、以前のバージョンにはなかったバグが含まれていることを示しているようだ。

では、本当のメッセージは何なのだろうか?

「我々の調査結果は、GPT-3.5とGPT-4の挙動が比較的短期間で大きく変化したことを示している。「このことは、LLMの本番アプリケーションでの挙動を継続的に評価する必要性を強調している。

そのため、OpenAIの製品担当副社長であるPeter Welinder氏が同様の例で示唆したように、これらの変化がバグなのか、それともOpenAIがコスト削減のために行った最適化に基づく一般的な品質低下の証拠なのかはまだ明らかになっていません。

その結果、チームは、ワークフローの一部としてLLMサービスを使用しているユーザーや企業が、提示された調査に基づいて、アプリケーションに対して同様のモニタリング分析を実施することを推奨している。このプロセスと言語モデルドリフトに関するさらなる研究をサポートするために、チームはChatGPTの評価とデータをGitHubで公開しています。

OpenAIは “分析 “することで研究に反応する

研究への反応OpenAIの現在の開発者対応主任であるLogan Kilpatrick氏は、同社は報告されたリグレッションを認識しており、それを分析していると述べた。彼はまた、新しいモデルがリリースされる際に、これらの既知のリグレッションケースをテストするために、OpenAIの公開評価スイートを呼びかけました。

別の発表では、GPT-4モデルのパフォーマンスに関する経験を報告してくれた人たちに感謝している。つまり、OpenAIチームが何も変わっていないと言った数件の後、同社はコミュニケーションをシフトしているようであり、Welinderは “より集中的に使用すると、以前は見えなかった問題に気づき始める “という彼の仮説を共有した。

ジェネレーティブAI市場にはまだ品質管理が必要

しかし、GPT-4でOpenAIが直面している問題は、同社特有のものではない。AIモデルを定期的に導入・更新している企業であればどこでも、それが顧客にとってのパフォーマンス向上やコスト削減に直結しない場合、変更点を伝えることに消極的になる可能性がある。ケース・イン・ポイント:MidjourneyのジェネレーティブAIサービスでも、パフォーマンス低下レポートが登場している。これらのレポートには、個人アカウントと憶測という同じ構造が見られる。

これらはすべて、ジェネレーティブAI製品の市場がいかに新しく複雑であるかを示している。将来的には、キルパトリックが作成しようとしているような評価が、逸話的な証拠から明確なベンチマークへと移行するのに役立つだろう。

コンテンツはThe Decoderから