RSS VentureBeat
팔로우
PixelRAG는 정확도 면에서 텍스트 파서를 능가하고 AI 에이전트 토큰 비용을 10배 절감합니다.
엔터프라이즈 RAG 파이프라인은 일반적으로 문서를 일반 텍스트로 변환하는데, 이 단계는 중요한 검색 신호를 파괴하고 대부분의 잘못된 답변을 유발합니다. UC 버클리 등의 새로운 연구는 이러한 텍스트 변환을 완전히 우회하는 시스템인 PixelRAG를 소개합니다. PixelRAG는 웹 페이지를 스크린샷으로 렌더링하고, 이 이미지를 인덱싱하며, 검색된 이미지 타일을 직접 읽기 위해 비전-언어 모델을 사용합니다. 이 접근 방식은 여러 벤치마크에서 텍스트 기반 RAG보다 최대 18.1% 더 나은 성능을 보여 정확도를 크게 향상시킵니다. 이 연구는 웹사이트의 다양성으로 인해 텍스트 파서 개선이 어렵고, 기존 파서는 레이아웃 및 타이포그래피와 같은 중요한 시각적 정보를 손실한다는 점을 강조합니다. 텍스트 기반 RAG는 파서 손실, 인포박스로 인한 순위 손실, 평탄화된 구조로 인한 리더 손실로 인해 실패합니다. PixelRAG는 비전-언어 모델을 활용하여 콘텐츠와 레이아웃 모두에 기반한 정보를 이해하며, 보다 총체적인 접근 방식을 제공합니다. 이 시스템은 페이지 렌더링, 스크린샷 타일 인덱싱, 검색 모델 미세 조정, 그리고 선택적으로 온디맨드 렌더링 스토리지 접근 방식을 사용합니다. 위키피디아에서 테스트된 PixelRAG는 특히 사실 QA 및 구조화된 테이블 쿼리에서 우수한 성능을 보여줍니다. 주요 이점은 토큰 사용량 감소로 인한 AI 에이전트의 상당한 비용 절감입니다. 그러나 시각적 청킹은 콘텐츠 경계를 고려하지 않고 타일이 고정된 픽셀 높이로 잘리기 때문에 아직 해결되지 않은 문제입니다. 기업은 향상된 검색 품질과 비용 효율성을 위한 하이브리드 접근 방식을 형성하기 위해 기존 텍스트 검색 시스템과 함께 PixelRAG를 향상 계층으로 채택할 수 있습니다.