Hex-LLM: Korkean tehokkuuden suurkielinen malli, jota tarjotaan TPU:illa Vertex AI -mallipuutarhassa

Google Cloudin Vertex AI Model Garden pyrkii optimoimaan koneoppimisvirrat yli 150 mallin avulla, joita ovat ensisijaiset, avoimen lähdekoodin ja kolmannen osapuolen mallit. Viime vuonna he esittelivät vLLM-palvelustackin GPU:illa, ja nyt he julkaisevat Hex-LLM:n, jota on optimoitu Cloud TPUs:ille käyttämällä XLA:ta. Hex-LLM parantaa suurten kielimallien (LLM) palvelun tehokkuutta ja kustannustehokkuutta yhdistämällä uusimman teknologian, kuten jatkuva batch-työt ja sivullinen huomio. Se tukee laajaa valikoimaa suosittuja tiheitä ja harvinaisia LLM-malleja ja tarjoaa korkean läpimenoajan ja matalan viiveen. Tärkeimmät optimoinnit sisältävät token-pohjaisen jatkuva batch-algoritmin, PagedAttention-kernelin uudelleenkirjoituksen ja joustavat tieto- ja tensori-parallelismin strategiat. Benchmarking ShareGPT-datasetilla näytti vaikuttavat suorituskykyarvot, kun mallit kuten Gemma 7B ja Llama 2 70B toivat kilpailijoita vastaavat tulokset TPU v5e -piipuissa. Käyttäjät voivat helposti käyttää Hex-LLM:ää Vertex AI Model Gardenin leikkikentällä, yhden klikin asennuksella tai Colab Enterprise -muistivihkoissa. Tämä joustavuus sallii mukauttamisen käsittelemään vaihtelevia liikennevaatimuksia, mikä tekee Hex-LLM:stä voimakkaan työkalun tehokkaaseen LLM-palveluun Google Cloudin TPU-laitteissa.

cloud.google.com

Hex-LLM: High-efficiency large language model serving on TPUs in Vertex AI Model Garden

RSS Hunter

2024-07-29

Create attached notes ...