Google Clouds Vertex AI Model Garden zielt darauf ab, Machine-Learning-Workflows zu optimieren, mit über 150 Modellen, darunter Erstpartei-, Open-Source- und Drittparteimodelle. Im letzten Jahr führten sie den vLLM-Dienststack auf GPUs ein und präsentieren nun Hex-LLM, optimiert für Cloud-TPUs mit XLA. Hex-LLM verbessert die Effizienz und Kosteneffektivität beim Betreiben großer Sprachmodelle (LLMs) durch die Integration von Technologien auf dem neuesten Stand wie kontinuierlichem Batching und seitenorientierter Aufmerksamkeit. Es unterstützt eine Vielzahl von beliebten dichten und sparsen LLM-Modellen und bietet eine hohe Durchsatzrate und niedrige Latenz. Zu den wichtigen Optimierungen gehören ein tokenbasiertes kontinuierliches Batching-Algorithmus, ein neu geschriebener PagedAttention-Kernel und flexible Daten- und Tensor-Parallelitätsstrategien. Benchmark-Tests mit dem ShareGPT-Datensatz zeigten beeindruckende Leistungsmetriken, mit Modellen wie Gemma 7B und Llama 2 70B, die auf TPU v5e-Chips konkurrierende Ergebnisse erzielten. Nutzer können Hex-LLM einfach über den Playground von Vertex AI Model Garden, eine Klick-Installation oder Colab Enterprise Notebooks bereitstellen. Diese Flexibilität ermöglicht es, sich an wechselnde Verkehrsanforderungen anzupassen, was Hex-LLM zu einem leistungsfähigen Werkzeug für effizientes LLM-Serving auf Google's TPU-Hardware macht.
cloud.google.com
Hex-LLM: High-efficiency large language model serving on TPUs in Vertex AI Model Garden
Create attached notes ...
