简体中文版人工智能和 ML 新闻

Hex-LLM:Vertex AI 模型园中基于 TPU 的高效大型语言模型服务

Follow
Google Cloud 的 Vertex AI 模型花园旨在通过超过 150 个模型(包括第一方、开源和第三方模型)来优化机器学习工作流程。去年,他们在 GPU 上引入了 vLLM 服务栈,现在他们推出了 Hex-LLM,它在 Cloud TPUs 上使用 XLA 进行了优化。Hex-LLM 通过整合最新技术,如连续批处理和分页注意力,提高了大型语言模型(LLM)的服务效率和成本效益。它支持多种流行的稠密和稀疏 LLM 模型,并提供了高吞吐量和低延迟。关键优化包括基于令牌的连续批处理算法、重写的 PagedAttention 核心和灵活的数据和张量并行策略。使用 ShareGPT 数据集进行基准测试时,模型如 Gemma 7B 和 Llama 2 70B 在 TPU v5e 芯片上显示了令人印象深刻的性能指标。用户可以通过 Vertex AI 模型花园的游乐场、一键部署或 Colab 企业笔记本轻松部署 Hex-LLM。这项灵活性允许根据不同的流量需求进行自定义,使 Hex-LLM 成为在 Google 的 TPU 硬件上高效服务 LLM 的强大工具。
favicon
cloud.google.com
Hex-LLM: High-efficiency large language model serving on TPUs in Vertex AI Model Garden
Create attached notes ...