Hex-LLM: Hög-effektivt stort språkmodell som serveras på TPUs i Vertex AI Model Garden

Google Clouds Vertex AI Model Garden syftar till att optimera maskininlärningsflöden med över 150 modeller, inklusive förstaparts-, öppen källkods- och tredjepartsmodeller. Förra året introducerade de vLLM-serverstacken på GPUs, och nu presenterar de Hex-LLM, optimerad för Cloud TPUs med XLA. Hex-LLM förbättrar effektiviteten och kostnadseffektiviteten vid servering av stora språkmodeller (LLM) genom att integrera state-of-the-art-tekniker som kontinuerlig batchning och paginated attention. Det stöder ett brett utbud av populära täta och glesa LLM-modeller och erbjuder hög genomströmning och låg latens. Nyckeloptimeringar inkluderar en token-baserad kontinuerlig batchningsalgoritm, en omskriven PagedAttention-kernel och flexibla data- och tensorparallellistrategier. Benchmarking med ShareGPT-datasetet visade imponerande prestanda, med modeller som Gemma 7B och Llama 2 70B som levererade konkurrenskraftiga resultat på TPU v5e-chippar. Användare kan enkelt distribuera Hex-LLM via Vertex AI Model Gardens lekplats, en-klicksinstallation eller Colab Enterprise-anteckningsböcker. Denna flexibilitet möjliggör anpassning för att hantera varierande trafikbehov, vilket gör Hex-LLM till ett kraftfullt verktyg för effektiv LLM-servering på Googles TPU-hårdvara.

cloud.google.com

Hex-LLM: High-efficiency large language model serving on TPUs in Vertex AI Model Garden

RSS Hunter

2024-07-29

Create attached notes ...