1200万トークン、線形コスト:アテンション・タックスに対す... ノート

1200万トークン、線形コスト:アテンション・タックスに対するサブクアドラティックの賭け

大規模言語モデルにおける二次的アテンションメカニズムは限界を生み出し、開発者はRetrieval-Augmented Generation (RAG) のような回避策を使用せざるを得なくなっています。Subquadraticという新しいスタートアップは、Subquadratic Selective Attention (SSA) を使用したモデルを導入し、コンテキスト長に関して計算とメモリの線形スケーリングを主張しています。これにより、現在APIを通じて利用可能な1200万トークンのコンテキストウィンドウが可能になります。SSAは、コンテンツに基づいて関連するトークンの組み合わせを選択的に処理することにより、密なアテンションの二次的ボトルネックに対処します。同社のベンチマークは、MRCR v2、Needle-in-a-haystack、SWE-Benchなどの分野で既存モデルを大幅に上回る改善を示しています。SSAの線形スケーリングが真実であることが証明されれば、現在長いコンテキストのコストによって制約されているRAGおよびエージェントベースシステムの経済性に革命をもたらすでしょう。しかし、この分野における野心的な主張の歴史と、Subquadraticのモデルが最大のモデルと比較して小さいサイズであるため、注意が必要です。ユーザーは、特にRAGまたは長コンテキストタスクに多額の投資をしている場合、SubquadraticのAPIをテストする必要があります。Subquadraticはコーディングエージェントも提供しており、後で50Mトークンのコンテキストウィンドウモデルをリリースする予定です。最終的に、技術的な能力は有望に見えますが、健全な懐疑心が必要です。