1200 万 token，线性成本：Subquadratic 对注意力税的反击”

关注

1200 万 token，线性成本：Subquadratic 对注意力税的反击”

大型语言模型中的二次方注意力机制已造成局限，迫使开发者采用检索增强生成（RAG）等变通方案。Subquadratic 是一家新成立的初创公司，推出了采用 Subquadratic 选择性注意力（SSA）的模型，宣称其在计算和内存方面随上下文长度呈线性扩展。这使得 1200 万 token 的上下文窗口现已可通过其 API 使用。SSA 通过基于内容选择性地处理相关的 token 组合，解决了稠密注意力的二次方瓶颈。该公司的基准测试显示，在 MRCR v2、Needle-in-a-haystack 和 SWE-Bench 等领域，其性能较现有模型有显著提升。如果 SSA 的线性扩展确实成立，它将彻底改变 RAG 和基于代理的系统经济模型，而后者目前受限于长上下文的成本。然而，鉴于该领域存在过度承诺的历史，以及 Subquadratic 模型规模小于最大规模模型，应保持谨慎。用户应测试 Subquadratic 的 API，尤其是那些在 RAG 或长上下文任务上投入较深的用户。Subquadratic 还提供编码代理，并计划后续发布支持 5000 万 token 上下文窗口的模型。总体而言，其技术能力看似前景广阔，但需保持适度的怀疑态度。

12 million tokens, linear cost: Subquadratic's bet against the attention tax dev.to

RSS Hunter • 5月6日