RSS VentureBeat
フォロー
PixelRAGは、精度でテキストパーサーを上回り、AIエージェントのトークンコストを10倍削減します。
エンタープライズRAGパイプラインは通常、ドキュメントをプレーンテキストに変換しますが、このステップは重要な検索シグナルを破壊し、ほとんどの不正確な回答の原因となります。UC Berkeleyなどの新しい研究では、このテキスト変換を完全に回避するシステムであるPixelRAGが紹介されています。PixelRAGはウェブページをスクリーンショットとしてレンダリングし、これらの画像をインデックス化し、ビジョン言語モデルを使用して取得した画像タイルを直接読み取ります。このアプローチは精度を大幅に向上させ、いくつかのベンチマークでテキストベースのRAGを最大18.1%上回ります。この研究は、ウェブサイトのバリエーションによりテキストパーサーの改善が困難であり、既存のパーサーはレイアウトやタイポグラフィなどの重要な視覚情報を失うことを強調しています。テキストベースのRAGは、パーサーの損失、インフォボックスからのランク損失、およびフラット化された構造からのリーダー損失により失敗します。PixelRAGは、コンテンツとレイアウトの両方に基づいて情報を理解するためにビジョン言語モデルを利用し、よりホリスティックなアプローチを提供します。このシステムには、ページのレンダリング、スクリーンショットタイルのインデックス化、検索モデルのファインチューニング、およびオプションでオンデマンドレンダリングストレージアプローチの使用が含まれます。WikipediaでテストされたPixelRAGは、特に事実QAおよび構造化テーブルクエリで優れたパフォーマンスを示します。主な利点は、トークン使用量の削減によるAIエージェントのコストの大幅な削減です。しかし、タイルはコンテンツの境界を考慮せずに固定ピクセル高さでスライスされるため、ビジュアルチャンキングは未解決の問題のままです。企業は、既存のテキスト検索システムと並んで強化レイヤーとしてPixelRAGを採用し、検索品質とコスト効率の向上に向けたハイブリッドアプローチを形成できます。