Google Clouds Vertex AI Model Garden sigter mod at optimere maskinlæringsworkflows med over 150 modeller, herunder førstehånds-, open-source- og tredjepartsmodeller. I sidste år introducerede de vLLM-serveringsstacken på GPU'er, og nu præsenterer de Hex-LLM, optimeret til Cloud TPUs ved hjælp af XLA. Hex-LLM forbedrer effektiviteten og omkostningseffektiviteten ved at serve store sprogmodeller (LLM'er) ved at inkorporere state-of-the-art-teknologier som kontinuerlig batching og paginering af opmærksomhed. Det understøtter en række populære tætte og sparsomme LLM-modeller og tilbyder høj gennemstrømning og lav ventetid. Nøgleoptimeringer omfatter en token-baseret kontinuerlig batching-algoritme, en omskrevet PagedAttention-kernel og fleksible data- og tensor-parallellisme-strategier. Benchmarking med ShareGPT-datasettet viste imponerende ydeevne-mål, med modeller som Gemma 7B og Llama 2 70B, der leverede konkurrencedygtige resultater på TPU v5e-chips. Brugere kan nemt implementere Hex-LLM via Vertex AI Model Gardens legeplads, en-klik-installation eller Colab Enterprise-notebooks. Denne fleksibilitet muliggør tilpasning til at håndtere varierende trafikbehov, hvilket gør Hex-LLM til et kraftfuldt værktøj for effektiv LLM-service på Google's TPU-hardware.
cloud.google.com
Hex-LLM: High-efficiency large language model serving on TPUs in Vertex AI Model Garden
Create attached notes ...
