Hex-LLM: Vertex AI 모델 가든에서 TPUs에서 서비스되는 고효율 대규모 언어 모델

구글 클라우드의 Vertex AI 모델 가든은 150개 이상의 모델, 즉 제1당 모델, 오픈 소스 모델, 제3당 모델을 통해 기계 학습 워크플로우를 최적화하는 것을 목표로 합니다. 작년에 GPU에서 vLLM 서비스 스택을 도입했으며 이제는 XLA를 사용하여 클라우드 TPU에 최적화된 Hex-LLM을 발표합니다. Hex-LLM은 지속적 배치와 페이지드 어텐션과 같은 최신 기술을 통합하여 대규모 언어 모델(LLM)의 서비스 효율성과 비용 효율성을 개선합니다. 다양한 인기 있는밀집 및 희소 LLM 모델을 지원하며 처리량이 높고 지연이 낮습니다. 주요 최적화에는 토큰 기반 지속적 배치 알고리즘, 다시 작성된 PagedAttention 커널, 유연한 데이터 및 텐서 병렬 처리 전략이 포함됩니다. ShareGPT 데이터 세트를 사용한 벤치마킹에서는 Gemma 7B와 Llama 2 70B와 같은 모델이 TPU v5e 칩에서 경쟁력 있는 성능 지표를 보여주는 것을 확인할 수 있습니다. 사용자는 Vertex AI 모델 가든의 플레이그라운드, 클릭 한 번 배포 또는 Colab Enterprise Notebooks를 통해 Hex-LLM을 쉽게 배포할 수 있습니다. 이러한 유연성은 트래픽 요구 사항에 따라 맞춤 설정을 허용하여 Hex-LLM이 구글의 TPU 하드웨어에서 효율적인 LLM 서비스를 제공하는 강력한 도구가 됩니다.

cloud.google.com

Hex-LLM: High-efficiency large language model serving on TPUs in Vertex AI Model Garden

RSS Hunter

2024-07-29

Create attached notes ...