Große Sprachmodelle (LLMs) neigen dazu, Halluzinationen zu generieren, die inkonsistent mit visuellen Eingaben sind. Um Halluzinationsbenchmarks zu evaluieren, wird ein Qualitätsmessrahmen vorgeschlagen. Dieser Rahmen konstruiert einen neuen hochwertigen Halluzinationsbenchmark für visuelle Sprachmodelle (VLMs). Frühere Arbeiten, wie POPE und AMBER, haben Benchmarks mit nicht existierenden Objekten erstellt und Ja-Nein-Fragen auf andere Arten von Halluzinationen erweitert. Der vorgeschlagene Rahmen wählt sechs öffentlich zugängliche Halluzinationsbenchmarks aus, darunter MMHal und GAVIE, die psychologischen Testprinzipien folgen. Diese Benchmarks zeigen jedoch Einschränkungen in Zuverlässigkeit und Validität. Geschlossene Benchmarks zeigen offensichtliche Mängel in der Test-Retest-Zuverlässigkeit. Der vorgeschlagene Rahmen führt einen Qualitätsmessrahmen für Halluzinationsbenchmarks ein, um die Einschränkungen bestehender Benchmarks anzusprechen. Der Rahmen zieht Inspiration aus der Zuverlässigkeit psychologischer Tests. Insgesamt bietet der vorgeschlagene Rahmen einen umfassenden Ansatz zur Evaluierung von Halluzinationsbenchmarks für VLMs.
dev.to
[memo]Evaluating the Quality of Hallucination Benchmarks for Large Vision-Language Models
Create attached notes ...
