Об эпистемологической неопределенности визуальных токенов для зрительных галлюцинаций в больших моделях языка и зрения

Системы ИИ иногда могут неправильно идентифицировать объекты на изображениях, потому что их внутренние представления данных становятся неопределенными. Эти представления, называемые "визуальными токенами", могут быть похожи на размытые подсказки, заставляя ИИ представлять вещи, которых на самом деле нет. Исследователи решили эту проблему, определив и замаскировав эти неопределенные токены, подобно исправлению размытого фото. Этот метод предотвращает влияние неопределенности ИИ на его интерпретацию изображения. Техника маскирования значительно улучшает точность визуальных описаний ИИ, уменьшая эти "галлюцинации". Это приводит к более достоверному пониманию визуального мира для этих моделей ИИ. Подход относительно прост, но имеет большое положительное влияние. Он хорошо работает в сочетании с другими улучшениями ИИ. Это в конечном итоге приближает нас к более надежным системам ИИ-видения. Это исследование улучшает способность ИИ точно воспринимать мир.

dev.to

On Epistemic Uncertainty of Visual Tokens for Object Hallucinations in LargeVision-Language Models

RSS Hunter

2025-10-31