대규모 언어 모델(LLM)은 시각적 입력과 일치하지 않는 반응인 환각을 생성하는 경향이 있습니다. 환각 벤치마크를 평가하기 위해 품질 측정 프레임워크가 제안됩니다. 이 프레임워크는 시각적 언어 모델(VLM)에 대한 새로운 고품질 환각 벤치마크를 구성합니다. POPE와 AMBER와 같은 이전 작품은 존재하지 않는 물체로 벤치마킹을 만들고 예-아니오 질문을 다른 유형의 환각으로 확장했습니다. 제안된 프레임워크는 심리 테스트 원칙을 따르는 MMHal과 GAVIE를 포함하여 공개적으로 사용 가능한 6개의 환각 벤치마크를 선택합니다. 그러나 이러한 벤치마크는 신뢰성과 타당성에 한계가 있습니다. 폐쇄형 벤치마크는 테스트-재테스트 신뢰성에서 명백한 단점을 보여줍니다. 제안된 프레임워크는 환각 벤치마크에 대한 품질 측정 프레임워크를 도입하여 기존 벤치마크의 한계를 해결합니다. 이 프레임워크는 심리 테스트의 신뢰성에서 영감을 얻습니다. 전반적으로, 제안된 프레임워크는 VLM에 대한 환각 벤치마크를 평가하기 위한 포괄적인 접근 방식을 제공합니다.
dev.to
[memo]Evaluating the Quality of Hallucination Benchmarks for Large Vision-Language Models
Create attached notes ...
