El jardín de modelos de Vertex AI de Google Cloud tiene como objetivo optimizar los flujos de trabajo de aprendizaje automático con más de 150 modelos, incluyendo modelos de primera y tercera partes, y de código abierto. El año pasado, introdujeron la pila de servicio vLLM en GPUs, y ahora presentan Hex-LLM, optimizado para Cloud TPUs utilizando XLA. Hex-LLM mejora la eficiencia y la rentabilidad al servir grandes modelos de lenguaje (LLMs) al integrar tecnologías de vanguardia como la agrupación continua y la atención paginada. Soporta una variedad de modelos de LLM densos y dispersos populares y ofrece un alto rendimiento y baja latencia. Las optimizaciones clave incluyen un algoritmo de agrupación continua basado en tokens, un kernel de PagedAttention reescrito y estrategias de paralelismo de datos y tensor flexible. Las pruebas de rendimiento con el conjunto de datos ShareGPT mostraron impresionantes métricas de rendimiento, con modelos como Gemma 7B y Llama 2 70B entregando resultados competitivos en chips TPU v5e. Los usuarios pueden implementar fácilmente Hex-LLM a través del jardín de modelos de Vertex AI, la implementación de un clic o las libretas de Colab Enterprise. Esta flexibilidad permite la personalización para manejar necesidades de tráfico variables, lo que hace que Hex-LLM sea una herramienta poderosa para el servicio eficiente de LLM en hardware TPU de Google.
cloud.google.com
Hex-LLM: High-efficiency large language model serving on TPUs in Vertex AI Model Garden
Create attached notes ...
