ヘルス言語モデルを評価するためのスケーラブルなフレームワーク ノート

ヘルス言語モデルを評価するためのスケーラブルなフレームワーク

大規模言語モデル(LLM)は、複雑なヘルスケアデータを分析して個別化された回答を生成することができます。ただし、これらのLLMの回答を評価することは、正確性と安全性のために非常に重要です。しかし、現在の人間の専門家による評価は、高コストでスケーラブルではありません。この論文では、ヘルスケア用LLMを評価するための新しいフレームワークを紹介します。このフレームワークでは、適応的な正確なブーリアン評価基準(Adaptive Precise Boolean rubrics)を使用して、複雑な質問を細かいYes/No基準に分解し、一貫性と効率性を向上させます。このフレームワークは、代謝ヘルスケアでテストされ、従来のLikertスケールよりも大幅に高い評価者間の信頼性を示しました。適応的な正確なブーリアン評価基準は、評価時間を50%以上短縮することも示しました。この方法は、Likertスケールよりも回答の品質の変化に敏感でした。ゼロショット分類器を使用した評価基準のフィルタリングプロセスの自動化も、同等の評価の改善を維持しました。このフレームワークは、実際の参加者データを変更したときにLLMの回答の品質低下を信頼性高く検出することができました。提案されたアプローチは、専門分野でのLLMの評価のためのスケーラブルでストリームライン化された方法を提供します。
CdXz5zHNQW_fzb8IapfxF.png