上下文压缩终于在生产环境中落地:新研究将 LLM 输入压缩 ... 笔记

上下文压缩终于在生产环境中落地:新研究将 LLM 输入压缩 16 倍,且无精度损失。

随着累积数据的增加,大语言模型(LLM)中的上下文窗口正成为显著的算力瓶颈。现有的压缩方法往往导致精度下降,或无法转化为实际的加速效果。研究人员提出了潜在上下文语言模型(LCLMs),这是一类新颖的编码器 - 解码器压缩模型。LCLMs 在数据到达解码器之前对输入上下文进行压缩,直接降低计算和内存需求。它们实现了显著的加速,有报告指出,在 16 倍压缩率下,其输出速度比 KV 缓存基线快 8.8 倍。LCLMs 能够以较低的内存和计算成本处理更长的上下文,并将精度损失降至最低。即使在较高的压缩比率下,LCLMs 在 RULER 等基准测试中仍展现出具有竞争力的精度。其架构由较小的编码器和较大的解码器组成,并在包含交错压缩与未压缩数据的多样化数据集上进行训练。这些模型旨在无缝集成到现有的代理(agentic)栈中,作为数据进入 LLM 前的压缩器。这使得模型能够高效地“浏览”海量信息并聚焦于相关细节。随着上下文长度的增长,企业面临日益增加的推理成本,而 LCLMs 提供了一种解决方案,确保即使在非常大的上下文下,计算仍能在硬件内存范围内进行。将 LCLMs 集成到检索增强生成(RAG)流程中需要针对最佳性能进行调优。一个尚未解决的挑战是对由代理生成的推理痕迹进行在线压缩。