PixelRAG 在准确率上优于文本解析器，并将 AI 代理的 token 成本降低 10 倍

关注

PixelRAG 在准确率上优于文本解析器，并将 AI 代理的 token 成本降低 10 倍

企业级 RAG 管道通常将文档转换为纯文本，这一过程会破坏重要的检索信号，导致大多数回答错误。来自加州大学伯克利分校等机构的新研究提出了 PixelRAG 系统，该系统完全绕过了文本转换步骤。PixelRAG 将网页渲染为截图，对这些图像进行索引，并利用视觉 - 语言模型直接读取检索到的图像块。这种方法显著提升了准确率，在多个基准测试中，其表现优于基于文本的 RAG，最高提升达 18.1%。该研究指出，由于网站变体众多，改进文本解析器极具挑战性，而现有解析器会丢失布局、字体等关键视觉信息。基于文本的 RAG 失败的原因包括：解析器损失、由信息框导致的排序损失，以及由扁平化结构导致的阅读器损失。PixelRAG 利用视觉 - 语言模型，基于内容和布局共同理解信息，提供了一种更全面的方案。该系统涉及页面渲染、截图块索引、检索模型微调，以及可选的按需渲染存储方式。在维基百科上的测试表明，PixelRAG 性能更优，尤其在事实性问答和结构化表格查询方面。其关键优势在于 AI 代理的 token 使用量减少，从而带来显著的成本节约。然而，视觉分块仍是一个未解决的问题，因为图像块是按固定像素高度切割的，未考虑内容边界。企业可将 PixelRAG 作为增强层与现有文本检索系统结合，形成混合方案，以提升检索质量和成本效率。

PixelRAG beats text parsers on accuracy and cuts AI agent token costs 10x venturebeat.com

RSS Hunter • 6月12日