Google Cloudは、Med-PaLM 2を今後数週間のうちに「限定テスト」としてGoogle Cloudの一部の顧客に提供開始すると発表した。同社によれば、その目的は、安全で責任ある有意義な利用シナリオを探求することである。

グーグルによると、この医療言語モデルは「豊かで有益な議論を促進し、複雑な医療質問に答え、複雑で構造化されていない医療テキストから洞察を見出す」ことができるという。また、医学的な質問に対する短い回答や長い回答を生成し、科学的な情報源だけでなく、社内の文書やデータセットから要約を作成することもできる。

グーグルによると、Med-PaLM 2は、米国医師免許試験(USMLE)タイプの問題で85%以上の精度でエキスパートレベルのパフォーマンスを達成した最初の言語モデルである。インドのAIIMSとNEETの医学試験の問題を含むMedMCQAデータセットでは、72.3パーセントの「合格率」を達成した。

Google Med-PaLM 2医学言語モデルが試験問題に合格

Med-PaLMはGoogleのPaLM言語モデルを医療問題用に最適化したものです。最新バージョンは、医学的な質問に専門的なレベルで確実に答えるように設計されている。

昨年12月、グーグルは、医学的な質問に答えるために最適化されたグーグルのPaLM(パスウェイ言語モデル)のバージョンであるMed-PaLMを発表した。Med-PaLMは、4人の医師が書いた医学的な質問に対する回答と、特別なソフトリクエスト法を組み合わせて開発された。

Med-PaLMは、テストされたほとんどのベンチマークにおいて、医療専門家と同等のパフォーマンスを示した。潜在的に有害な応答が生成されたのは5.9%で、人間の専門家の5.7%であったと研究チームは述べた。

Med-PaLMはまた、多肢選択式および自由形式の問題に正しく回答し、その回答について推論することで、米国の医師免許試験に合格した最初のAIモデルでもある(「免許試験形式の問題」でテストした場合の正解率は67.2%、60%が必要)。

Med-PaLM 2はさらに正確だが、まだギャップがある。

Google Healthの “The Check Up “イベントの一環として、GoogleはMed-PaLMの継続的な開発を発表した。現在のバージョンであるMed-PaLM 2は、”専門医レベル “で診察の質問に答えることができ、その精度は85%である。

desempenho do google palm 2
他の言語モデルと比較したMed-PaLM 2の医療ライセンス問題でのパフォーマンス。Med-PaLM 2は85パーセント以上の正解率を達成しているが、他の言語モデルはいずれも60パーセントを下回っている。 画像:Google AI

これは、Med-PaLM 2が前モデルよりも18パーセントの性能向上を達成し、医療タスクにおける同等の言語モデルのレベルを大きく上回っていることを意味する。しかし、Med-PaLM 2がグーグルの品質基準を満たすためには、まだ改善の余地が大きいとチームは見ている。Med-PaLM 1に対する技術的な変更点については、チームは口をつぐんでいる。

Med-PaLM 2は、科学的事実性、正確性、医学的コンセンサス、推論、偏見、有害性を含む14の基準に対してテストされ、多様な背景と国の臨床医と非臨床医によって評価された。その結果、「医学的な質問に答えるという点で、大きなギャップがある」ことがわかったが、その欠点については詳しく説明されなかった。

グーグルは研究チームと協力し、Med-PaLMをさらに発展させ、これらのギャップに対処し、言語モデリングがどのように医療を改善できるかを理解する予定である。以下のビデオは、16:30頃から始まるMed-PaLM 2の発表の様子である。