Большие языковые модели (БЯМ) склонны генерировать галлюцинации, которые являются ответами, несовместимыми с визуальными входами. Для оценки бенчмарков галлюцинаций предлагается рамка измерения качества. Эта рамка создает новый высококачественный бенчмарк галлюцинаций для визуальных языковых моделей (ВЯМ). Ранее проведенные работы, такие как POPE и AMBER, создали бенчмарки с несуществующими объектами и расширили вопросы «да/нет» до других типов галлюцинаций. Предлагаемая рамка выбирает шесть общедоступных бенчмарков галлюцинаций, включая MMHal и GAVIE, которые следуют принципам психологических тестов. Однако эти бенчмарки демонстрируют ограничения в надежности и валидности. Закрытые бенчмарки показывают очевидные недостатки в повторяемости теста. Предлагаемая рамка вводит рамку измерения качества для бенчмарков галлюцинаций, устраняя ограничения существующих бенчмарков. Рамка черпает вдохновение из надежности психологических тестов. В целом, предлагаемая рамка обеспечивает всесторонний подход к оценке бенчмарков галлюцинаций для ВЯМ.
dev.to
[memo]Evaluating the Quality of Hallucination Benchmarks for Large Vision-Language Models
Create attached notes ...
