RSS VentureBeat
Подписаться
PixelRAG превосходит текстовые парсеры по точности и снижает затраты на токены для ИИ-агентов в 10 раз
Корпоративные RAG-конвейеры обычно преобразуют документы в обычный текст, что уничтожает важные сигналы поиска и приводит к большинству неправильных ответов. Новое исследование Калифорнийского университета в Беркли и других организаций представляет PixelRAG, систему, которая полностью обходит это преобразование текста. PixelRAG отображает веб-страницы в виде скриншотов, индексирует эти изображения и использует модель "зрение-язык" для прямого чтения извлеченных фрагментов изображений. Этот подход значительно повышает точность, превосходя текстовые RAG на 18,1% по нескольким эталонным показателям. Исследование подчеркивает, что улучшение текстовых парсеров затруднено из-за вариаций веб-сайтов, а существующие парсеры теряют важную визуальную информацию, такую как макет и типографика. Текстовые RAG терпят неудачу из-за потери данных парсером, потери ранжирования из-за информационных блоков и потери данных читателем из-за плоских структур. PixelRAG использует модели "зрение-язык" для понимания информации на основе как содержания, так и макета, предлагая более целостный подход. Система включает в себя отображение страниц, индексацию фрагментов скриншотов, дообучение модели поиска и, при необходимости, использование подхода хранения с отображением по требованию. Протестированный на Википедии, PixelRAG демонстрирует превосходную производительность, особенно в задачах фактических вопросов и запросов к структурированным таблицам. Ключевым преимуществом является значительная экономия средств для ИИ-агентов за счет сокращения использования токенов. Однако проблема визуальной сегментации остается нерешенной, поскольку фрагменты нарезаются по фиксированной высоте пикселей без учета границ контента. Предприятия могут использовать PixelRAG в качестве слоя улучшения наряду с существующими системами текстового поиска, формируя гибридный подход для повышения качества поиска и экономической эффективности.