Hex-LLM: Høy-effisiens stor språkmodell serveres på TPUs i Vertex AI-modellhage

Google Clouds Vertex AI Model Garden har som mål å optimalisere maskinlæringsarbeidsflyter med over 150 modeller, inkludert førstepartsmodeller, open-source-modeller og tredjepartsmodeller. I fjor introduserte de vLLM-tjenestestakken på GPU-er, og nå presenterer de Hex-LLM, optimalisert for Cloud TPUs ved bruk av XLA. Hex-LLM forbedrer effektiviteten og kostnadseffektiviteten i tjenesten av store språkmodeller (LLM) ved å inkorporere state-of-the-art-teknologier som kontinuerlig batching og paginert oppmerksomhet. Det støtter en rekke populære tette og sparsomme LLM-modeller og tilbyr høy gjennomstrømning og lav latency. Nøkkeloptimaliseringer inkluderer en token-basert kontinuerlig batching-algoritme, en omskrevet PagedAttention-kernel og fleksible data- og tensor-parallellisme-strategier. Benchmarking med ShareGPT-datasettet viste imponerende ytelsesmål, med modeller som Gemma 7B og Llama 2 70B som leverte konkurransedyktige resultater på TPU v5e-chipene. Brukere kan enkelt deployere Hex-LLM via Vertex AI Model Gardens lekeplass, en-klikk-deployment eller Colab Enterprise-Notebooks. Denne fleksibiliteten tillater tilpasning for å håndtere varierende trafikkbehov, noe gjør Hex-LLM til et kraftfullt verktøy for effektiv LLM-tjeneste på Google's TPU-hardware.

cloud.google.com

Hex-LLM: High-efficiency large language model serving on TPUs in Vertex AI Model Garden

RSS Hunter

2024-07-29

Create attached notes ...