上下文压缩终于在生产环境中落地：新研究将 LLM 输入压缩 16 倍，且无精度损失。

关注

上下文压缩终于在生产环境中落地：新研究将 LLM 输入压缩 16 倍，且无精度损失。

随着累积数据的增加，大语言模型（LLM）中的上下文窗口正成为显著的算力瓶颈。现有的压缩方法往往导致精度下降，或无法转化为实际的加速效果。研究人员提出了潜在上下文语言模型（LCLMs），这是一类新颖的编码器 - 解码器压缩模型。LCLMs 在数据到达解码器之前对输入上下文进行压缩，直接降低计算和内存需求。它们实现了显著的加速，有报告指出，在 16 倍压缩率下，其输出速度比 KV 缓存基线快 8.8 倍。LCLMs 能够以较低的内存和计算成本处理更长的上下文，并将精度损失降至最低。即使在较高的压缩比率下，LCLMs 在 RULER 等基准测试中仍展现出具有竞争力的精度。其架构由较小的编码器和较大的解码器组成，并在包含交错压缩与未压缩数据的多样化数据集上进行训练。这些模型旨在无缝集成到现有的代理（agentic）栈中，作为数据进入 LLM 前的压缩器。这使得模型能够高效地“浏览”海量信息并聚焦于相关细节。随着上下文长度的增长，企业面临日益增加的推理成本，而 LCLMs 提供了一种解决方案，确保即使在非常大的上下文下，计算仍能在硬件内存范围内进行。将 LCLMs 集成到检索增强生成（RAG）流程中需要针对最佳性能进行调优。一个尚未解决的挑战是对由代理生成的推理痕迹进行在线压缩。

Context compression finally works in production: new research cuts LLM input 16x without the accuracy hit venturebeat.com

RSS Hunter • 6月11日