Google CloudのVertex AI Model Gardenは、150以上のモデル(ファーストパーティー、オープンソース、サードパーティー)を使用して機械学習ワークフローを最適化します。昨年、GPU上でvLLMサービングスタックが導入されましたが、今回はCloud TPUs上でXLAを使用して最適化されたHex-LLMが発表されました。Hex-LLMは、連続的なバッチングやページドアテンションなどの最先端技術を組み合わせて、大規模言語モデルのサービング効率とコスト効果を向上させています。人気のある密度のあるモデルと疎密度のあるモデルがサポートされており、高スループットと低レイテンシーの性能を実現しています。主要な最適化には、トークンベースの連続バッチングアルゴリズム、書き換えられたPagedAttentionカーネル、および柔軟なデータとテンソル並列戦略が含まれます。ShareGPTデータセットでのベンチマークテストでは、Gemma 7BやLlama 2 70BなどのモデルがTPU v5eチップ上で競争力のある結果を示しました。ユーザーは、Vertex AI Model Gardenのプレイグラウンド、ワンクリックデプロイメント、Colab Enterprise Notebooksを通じてHex-LLMを簡単にデプロイできます。この柔軟性により、変動するトラフィック需要に対応するカスタマイズが可能になり、Hex-LLMはGoogleのTPUハードウェア上で効率的なLLMサービングの強力なツールです。
cloud.google.com
Hex-LLM: High-efficiency large language model serving on TPUs in Vertex AI Model Garden
Create attached notes ...
