大規模言語モデル(LLM)は、視覚的入力と一致しない応答である「幻覚」を生成する傾向があります。幻覚ベンチマークを評価するために、品質測定フレームワークが提案されています。このフレームワークは、視覚言語モデル(VLM)用の新しい高品質な幻覚ベンチマークを構築します。以前の研究、たとえばPOPEやAMBERは、存在しないオブジェクトを持つベンチマークを作成し、はい/いいえの質問を他のタイプの幻覚に拡張しました。提案されたフレームワークは、心理テストの原則に従うMMHalやGAVIEを含む6つの公開されている幻覚ベンチマークを選択します。しかし、これらのベンチマークは信頼性と妥当性の点で限界を示しています。閉じた質問のベンチマークは、テスト-リテストの信頼性における明らかな欠点を示しています。提案されたフレームワークは、幻覚ベンチマークの品質測定フレームワークを導入し、既存のベンチマークの限界を解決します。このフレームワークは、心理テストの信頼性からインスピレーションを得ています。全体として、提案されたフレームワークは、VLMの幻覚ベンチマークを評価するための包括的なアプローチを提供します。
dev.to
[memo]Evaluating the Quality of Hallucination Benchmarks for Large Vision-Language Models
