Hex-LLM: Efficiënt grote taalmodel in dienst op TPUs in Vertex AI Model Garden

Google Cloud's Vertex AI Model Garden heeft als doel om machine learning workflows te optimaliseren met meer dan 150 modellen, waaronder first-party, open-source en third-party modellen. Vorig jaar introduceerden ze de vLLM serving stack op GPUs, en nu onthullen ze Hex-LLM, geoptimaliseerd voor Cloud TPUs met behulp van XLA. Hex-LLM verbetert de efficiëntie en kosteneffectiviteit bij het serveren van grote taalmodellen (LLMs) door state-of-the-art-technologieën te integreren, zoals continue batching en paginated attention. Het ondersteunt een breed scala aan populaire dense en sparse LLM-modellen en biedt een hoge throughput en lage latentie. Belangrijke optimalisaties omvatten een token-gebaseerde continue batching-algoritme, een herschreven PagedAttention-kernel en flexibele data- en tensor-parallelisatie-strategieën. Benchmarking met de ShareGPT-dataset toonde indrukwekkende prestatie-metrieken, met modellen zoals Gemma 7B en Llama 2 70B die concurrentiële resultaten leverden op TPU v5e-chips. Gebruikers kunnen Hex-LLM eenvoudig implementeren via Vertex AI Model Garden's playground, één-klik-deployement of Colab Enterprise Notebooks. Deze flexibiliteit maakt het mogelijk om aanpassingen door te voeren om variabele verkeersbehoeften te hanteren, waardoor Hex-LLM een krachtig gereedschap is voor efficiënt LLM-serveren op Google's TPU-hardware.

cloud.google.com

Hex-LLM: High-efficiency large language model serving on TPUs in Vertex AI Model Garden

RSS Hunter

2024-07-29

Create attached notes ...