Google Cloud's Vertex AI Model Garden heeft als doel om machine learning workflows te optimaliseren met meer dan 150 modellen, waaronder first-party, open-source en third-party modellen. Vorig jaar introduceerden ze de vLLM serving stack op GPUs, en nu onthullen ze Hex-LLM, geoptimaliseerd voor Cloud TPUs met behulp van XLA. Hex-LLM verbetert de efficiëntie en kosteneffectiviteit bij het serveren van grote taalmodellen (LLMs) door state-of-the-art-technologieën te integreren, zoals continue batching en paginated attention. Het ondersteunt een breed scala aan populaire dense en sparse LLM-modellen en biedt een hoge throughput en lage latentie. Belangrijke optimalisaties omvatten een token-gebaseerde continue batching-algoritme, een herschreven PagedAttention-kernel en flexibele data- en tensor-parallelisatie-strategieën. Benchmarking met de ShareGPT-dataset toonde indrukwekkende prestatie-metrieken, met modellen zoals Gemma 7B en Llama 2 70B die concurrentiële resultaten leverden op TPU v5e-chips. Gebruikers kunnen Hex-LLM eenvoudig implementeren via Vertex AI Model Garden's playground, één-klik-deployement of Colab Enterprise Notebooks. Deze flexibiliteit maakt het mogelijk om aanpassingen door te voeren om variabele verkeersbehoeften te hanteren, waardoor Hex-LLM een krachtig gereedschap is voor efficiënt LLM-serveren op Google's TPU-hardware.
cloud.google.com
Hex-LLM: High-efficiency large language model serving on TPUs in Vertex AI Model Garden
Create attached notes ...
