Communauté RSS DEV

[Mémo] Évaluation de la qualité des benchmarks d'hallucinations pour les grands modèles de vision-langage

Les grands modèles de langage (LLMs) ont tendance à générer des hallucinations, qui sont des réponses incohérentes avec les entrées visuelles. Pour évaluer les benchmarks d'hallucination, un cadre de mesure de qualité est proposé. Ce cadre construit un nouveau benchmark d'hallucination de haute qualité pour les modèles de langage visuel (VLMs). Les travaux précédents, tels que POPE et AMBER, ont créé des benchmarks avec des objets inexistants et ont étendu les questions oui-non à d'autres types d'hallucinations. Le cadre proposé sélectionne six benchmarks d'hallucination publics, notamment MMHal et GAVIE, qui suivent les principes des tests psychologiques. Cependant, ces benchmarks présentent des limitations en termes de fiabilité et de validité. Les benchmarks à choix fermé montrent des lacunes évidentes en termes de fiabilité test-retest. Le cadre proposé introduit un cadre de mesure de qualité pour les benchmarks d'hallucination, qui aborde les limitations des benchmarks existants. Le cadre s'inspire de la fiabilité des tests psychologiques. Dans l'ensemble, le cadre proposé fournit une approche exhaustive pour évaluer les benchmarks d'hallucination pour les VLMs.
favicon
dev.to
[memo]Evaluating the Quality of Hallucination Benchmarks for Large Vision-Language Models
Create attached notes ...