Спрос на инфраструктуру для вывода (inference) ИИ быстро растет, и ожидается, что расходы на вывод скоро превысят инвестиции в обучение. Этот всплеск обусловлен потребностью в более богатом пользовательском опыте, больших контекстных окнах и росте агентного ИИ. Эффективное управление ресурсами для вывода имеет решающее значение для организаций, стремящихся улучшить пользовательский опыт и оптимизировать затраты. Экспериментальное исследование показало, что использование внешних кешей "ключ-значение" (KV) на высокопроизводительном хранилище, таком как Google Cloud Managed Lustre, может снизить общую стоимость владения (TCO) до 35%. Это достигается за счет переноса вычислений предварительного заполнения на ввод-вывод, что позволяет организациям обслуживать рабочие нагрузки с использованием на 43% меньшего количества графических процессоров. KV Cache - это оптимизация для LLM на основе Transformer, которая хранит вычисленные векторы ключей и значений из предыдущих токенов, избегая избыточных вычислений и ускоряя вывод. Когда кеши KV превышают емкость памяти хоста, решения для внешнего хранения становятся необходимыми, особенно для больших контекстов и одновременных пользователей. Агентный ИИ, разработанный для проактивного решения проблем, еще больше увеличивает длину контекста и размеры кешей KV, усугубляя проблемы управления. Google Cloud Managed Lustre предлагает высокопроизводительную параллельную файловую систему, идеально подходящую для крупномасштабных, многоузловых рабочих нагрузок вывода, превышающих емкость хост-машины. Эксперименты показывают значительное улучшение производительности, включая увеличение пропускной способности вывода на 75% и сокращение среднего времени до первого токена на 44% при использовании Managed Lustre по сравнению только с памятью хоста. Это решение с внешним кешем KV обеспечивает убедительное преимущество TCO по сравнению с подходами, использующими только память, за счет обеспечения более эффективного использования дорогостоящих вычислительных ресурсов.
cloud.google.com
Accelerating AI inferencing with external KV Cache on Managed Lustre
t.me
AI и ML Дайджест в Телеграмм канале @ai_ml_news_ru
Create attached notes ...
