컨텍스트 압축이 드디어 프로덕션에서 작동합니다: 새로운 연구로 정확도 저하 없이 LLM 입력을 16배 줄입니다

팔로우

컨텍스트 압축이 드디어 프로덕션에서 작동합니다: 새로운 연구로 정확도 저하 없이 LLM 입력을 16배 줄입니다

대규모 언어 모델의 컨텍스트 창은 누적 데이터와 함께 증가함에 따라 상당한 계산 병목 현상이 되고 있습니다. 기존 압축 방법은 종종 정확도를 저하시키거나 실제 속도 향상으로 이어지지 않습니다. 연구원들은 새로운 인코더-디코더 압축 모델 계열인 Latent Context Language Models (LCLMs)을 도입했습니다. LCLMs는 입력 컨텍스트가 디코더에 도달하기 전에 압축하여 계산 및 메모리 요구 사항을 직접적으로 줄입니다. 이들은 상당한 속도 향상을 달성했으며, 한 보고서에 따르면 KV 캐시 기준선에 비해 16배 압축 시 8.8배 더 빠른 출력을 보여주었습니다. LCLMs는 낮은 메모리 및 계산 비용으로 훨씬 더 긴 컨텍스트를 처리할 수 있게 하여 정확도 저하를 최소화합니다. 상당한 압축 비율에서도 LCLMs는 RULER와 같은 벤치마크에서 경쟁력 있는 정확도를 보여줍니다. 이들의 아키텍처는 더 작은 인코더와 더 큰 디코더를 쌍으로 이루며, 인터리브된 압축 및 비압축 데이터를 포함한 다양한 데이터셋으로 학습됩니다. 이 모델들은 기존 에이전트 스택에 원활하게 통합되도록 설계되었으며, 데이터가 LLM에 들어가기 전에 압축기 역할을 합니다. 이를 통해 모델은 방대한 양의 정보를 효율적으로 "훑어보고" 관련 세부 정보에 집중할 수 있습니다. 기업은 컨텍스트 길이가 증가함에 따라 추론 비용이 증가하는 문제에 직면해 있으며, LCLMs는 매우 큰 컨텍스트에서도 계산을 하드웨어 메모리 경계 내에 유지하는 솔루션을 제공합니다. 검색 증강 생성 (RAG) 파이프라인에 LCLMs를 통합하려면 최적의 성능을 위해 조정이 필요합니다. 남은 과제는 에이전트가 생성한 추론 추적의 온라인 압축입니다.

Context compression finally works in production: new research cuts LLM input 16x without the accuracy hit venturebeat.com

RSS Hunter • 6월 11일