Google Cloud'un Vertex AI Model Garden, makine öğrenimi iş akışlarını optimize etmek için toplamda 150'den fazla modelle, birinci taraf, açık kaynaklı ve üçüncü taraf modellerini kapsamaktadır. Geçen yıl, GPU'lar üzerinde vLLM hizmet yığını tanıtılırken, şimdi de Hex-LLM'i, Cloud TPUs için XLA kullanarak optimize etmektedir. Hex-LLM, büyük dil modellerini (LLM) hizmet sunarken verimliliği ve maliyet etkinliğini artırıyor ve sürekli batching ve paged attention gibi son teknoloji teknolojileri kullanarak iyileştiriliyor. Popüler dense ve sparse LLM modellerini desteklemekte ve yüksek attraversan ve düşük gecikme süreleri sunmaktadır. Önemli iyileştirmeler arasında token-based sürekli batching algoritması, yeniden yazılmış PagedAttention kernel ve esnek veri ve tensör paralelizmi stratejileri bulunmaktadır. ShareGPT veri setine yapılan benchmarking, Gemma 7B ve Llama 2 70B gibi modellerin TPU v5e yongaları üzerinde rekabetçi sonuçlar elde ettiğini göstermiştir. Kullanıcılar, Hex-LLM'i Vertex AI Model Garden'in oyun alanı, tek tıklama dağıtım veya Colab Enterprise Notebooks aracılığıyla kolayca dağıtabilirler. Bu esneklik, değişen trafik ihtiyaçlarına göre özelleştirme yapılmasını sağlar ve Hex-LLM'i Google'ın TPU donanımında büyük dil modellerini hizmet sunmak için güçlü bir araç haline getirir.
cloud.google.com
Hex-LLM: High-efficiency large language model serving on TPUs in Vertex AI Model Garden
Create attached notes ...
