Hex-LLM: Эффективная крупная языковая модель, работающая на ТПУ в Vertex AI Model Garden

Vertex AI Model Garden от Google Cloud стремится оптимизировать поток машинного обучения с более чем 150 моделями, включая модели первой и третьей стороны, а также модели с открытым исходным кодом. В прошлом году они представили стек vLLM для серверов на GPU, а теперь они представляют Hex-LLM, оптимизированный для Cloud TPUs с помощью XLA. Hex-LLM улучшает эффективность и стоимость обслуживания крупных языковых моделей (LLM) за счет внедрения передовых технологий, таких как непрерывенная пакетная обработка и разбитое внимание. Он поддерживает разнообразный набор популярных плотных и разреженных LLM-моделей и обеспечивает высокую пропускную способность и низкую задержку. Ключевые оптимизации включают алгоритм непрерывной пакетной обработки на основе токенов, переписанный ядро PagedAttention и гибкие стратегии параллелизма данных и тензоров. Тестирование с набором данных ShareGPT показало впечатляющие метрики производительности, с моделями, такими как Gemma 7B и Llama 2 70B, демонстрирующими конкурентоспособные результаты на чипах TPU v5e. Пользователи могут легко развернуть Hex-LLM с помощью Vertex AI Model Garden’s playground, развертывания по одному клику или Colab Enterprise Notebooks. Эта гибкость позволяет настраивать развертывание для удовлетворения разнообразных потребностей в трафике, делая Hex-LLM мощным инструментом для эффективного обслуживания LLM на аппаратуре Google's TPU.

cloud.google.com

Hex-LLM: High-efficiency large language model serving on TPUs in Vertex AI Model Garden

RSS Hunter

2024-07-28

Create attached notes ...