Hex-LLM：Vertex AI 模型园中基于 TPU 的高效大型语言模型服务

Google Cloud 的 Vertex AI 模型花园旨在通过超过 150 个模型（包括第一方、开源和第三方模型）来优化机器学习工作流程。去年，他们在 GPU 上引入了 vLLM 服务栈，现在他们推出了 Hex-LLM，它在 Cloud TPUs 上使用 XLA 进行了优化。Hex-LLM 通过整合最新技术，如连续批处理和分页注意力，提高了大型语言模型（LLM）的服务效率和成本效益。它支持多种流行的稠密和稀疏 LLM 模型，并提供了高吞吐量和低延迟。关键优化包括基于令牌的连续批处理算法、重写的 PagedAttention 核心和灵活的数据和张量并行策略。使用 ShareGPT 数据集进行基准测试时，模型如 Gemma 7B 和 Llama 2 70B 在 TPU v5e 芯片上显示了令人印象深刻的性能指标。用户可以通过 Vertex AI 模型花园的游乐场、一键部署或 Colab 企业笔记本轻松部署 Hex-LLM。这项灵活性允许根据不同的流量需求进行自定义，使 Hex-LLM 成为在 Google 的 TPU 硬件上高效服务 LLM 的强大工具。

cloud.google.com

Hex-LLM: High-efficiency large language model serving on TPUs in Vertex AI Model Garden

RSS Hunter

2024-07-29

Create attached notes ...