Il Vertex AI Model Garden di Google Cloud si propone di ottimizzare i flussi di lavoro di apprendimento automatico con oltre 150 modelli, tra cui modelli di prima parte, open-source e di terze parti. L'anno scorso, hanno introdotto lo stack di servizio vLLM su GPU, e ora presentano Hex-LLM, ottimizzato per Cloud TPUs utilizzando XLA. Hex-LLM migliora l'efficienza e la convenienza economica nel servire grandi modelli di linguaggio (LLM) integrando tecnologie all'avanguardia come batching continuo e attenzione paginata. Sostiene una gamma di modelli di LLM densi e sparsi popolari e offre un alto throughput e bassa latenza. Le chiavi delle ottimizzazioni includono un algoritmo di batching continuo basato su token, un kernel di PagedAttention riscritto e strategie di parallelismo dati e tensore flessibili. Le prove di benchmarking con il dataset ShareGPT hanno mostrato impressionanti metriche di prestazione, con modelli come Gemma 7B e Llama 2 70B che offrono risultati competitivi su chip TPU v5e. Gli utenti possono facilmente distribuire Hex-LLM attraverso il playground di Vertex AI Model Garden, la distribuzione in un click o i Colab Enterprise Notebooks. Questa flessibilità consente di personalizzare per gestire esigenze di traffico variabili, rendendo Hex-LLM uno strumento potente per il servizio efficiente di LLM su hardware TPU di Google.
cloud.google.com
Hex-LLM: High-efficiency large language model serving on TPUs in Vertex AI Model Garden
Create attached notes ...
