大型语言模型中的二次方注意力机制已造成局限,迫使开发者采用检索增强生成(RAG)等变通方案。Subquadratic 是一家新成立的初创公司,推出了采用 Subquadratic 选择性注意力(SSA)的模型,宣称其在计算和内存方面随上下文长度呈线性扩展。这使得 1200 万 token 的上下文窗口现已可通过其 API 使用。SSA 通过基于内容选择性地处理相关的 token 组合,解决了稠密注意力的二次方瓶颈。该公司的基准测试显示,在 MRCR v2、Needle-in-a-haystack 和 SWE-Bench 等领域,其性能较现有模型有显著提升。如果 SSA 的线性扩展确实成立,它将彻底改变 RAG 和基于代理的系统经济模型,而后者目前受限于长上下文的成本。然而,鉴于该领域存在过度承诺的历史,以及 Subquadratic 模型规模小于最大规模模型,应保持谨慎。用户应测试 Subquadratic 的 API,尤其是那些在 RAG 或长上下文任务上投入较深的用户。Subquadratic 还提供编码代理,并计划后续发布支持 5000 万 token 上下文窗口的模型。总体而言,其技术能力看似前景广阔,但需保持适度的怀疑态度。
dev.to
12 million tokens, linear cost: Subquadratic's bet against the attention tax
Create attached notes ...
