PixelRAG 在准确率上优于文本解析器,并将 AI 代理... 笔记

PixelRAG 在准确率上优于文本解析器,并将 AI 代理的 token 成本降低 10 倍

企业级 RAG 管道通常将文档转换为纯文本,这一过程会破坏重要的检索信号,导致大多数回答错误。来自加州大学伯克利分校等机构的新研究提出了 PixelRAG 系统,该系统完全绕过了文本转换步骤。PixelRAG 将网页渲染为截图,对这些图像进行索引,并利用视觉 - 语言模型直接读取检索到的图像块。这种方法显著提升了准确率,在多个基准测试中,其表现优于基于文本的 RAG,最高提升达 18.1%。该研究指出,由于网站变体众多,改进文本解析器极具挑战性,而现有解析器会丢失布局、字体等关键视觉信息。基于文本的 RAG 失败的原因包括:解析器损失、由信息框导致的排序损失,以及由扁平化结构导致的阅读器损失。PixelRAG 利用视觉 - 语言模型,基于内容和布局共同理解信息,提供了一种更全面的方案。该系统涉及页面渲染、截图块索引、检索模型微调,以及可选的按需渲染存储方式。在维基百科上的测试表明,PixelRAG 性能更优,尤其在事实性问答和结构化表格查询方面。其关键优势在于 AI 代理的 token 使用量减少,从而带来显著的成本节约。然而,视觉分块仍是一个未解决的问题,因为图像块是按固定像素高度切割的,未考虑内容边界。企业可将 PixelRAG 作为增强层与现有文本检索系统结合,形成混合方案,以提升检索质量和成本效率。