RSS VentureBeat
Подписаться
Сжатие контекста наконец-то работает в продакшене: новое исследование сокращает ввод LLM в 16 раз без потери точности
Оконные контексты в больших языковых моделях становятся значительным вычислительным узким местом по мере их роста с накопленными данными. Существующие методы сжатия часто снижают точность или не приводят к реальному ускорению. Исследователи представили латентные контекстные языковые модели (LCLM) — новое семейство моделей сжатия типа "кодер-декодер". LCLM сжимают входной контекст до того, как он достигнет декодера, напрямую снижая вычислительные и оперативные требования. Они обеспечивают существенное ускорение: в одном отчете показано 8,8-кратное ускорение вывода при 16-кратном сжатии по сравнению с базовыми моделями KV-кэша. LCLM позволяют обрабатывать гораздо более длинные контексты с низкими затратами памяти и вычислений, минимизируя снижение точности. Даже при значительных коэффициентах сжатия LCLM демонстрируют конкурентоспособную точность на таких эталонных тестах, как RULER. Их архитектура сочетает меньший кодер с большим декодером, обученным на разнообразном наборе данных, включающем чередующиеся сжатые и несжатые данные. Модели разработаны для бесшовной интеграции в существующие агентные стеки, выступая в качестве компрессора перед тем, как данные попадут в LLM. Это позволяет моделям эффективно "просматривать" огромные объемы информации и фокусироваться на релевантных деталях. Предприятия сталкиваются с растущими затратами на вывод по мере увеличения длины контекста, а LCLM предлагают решение для удержания вычислений в пределах аппаратной памяти даже при очень больших контекстах. Интеграция LCLM в конвейеры генерации с дополненным поиском (RAG) потребует настройки для оптимальной производительности. Оставшейся проблемой является онлайн-сжатие следов рассуждений, генерируемых агентами.