GKE 上の NVIDIA NIM マイクロサービスを使用して、最適化された AI モデルを効率的に提供

Google Cloud と NVIDIA は、Google Kubernetes Engine（GKE）での NVIDIA NIM の提供を発表しました。これにより、ユーザーは GKE コンソールから直接 NIM マイクロサービスをデプロイできます。この統合により、AI モデルの推論が最適化され、GKE のスケールと運用効率により、最適な待ち時間とスループットが提供されます。NVIDIA NIM コンテナ化マイクロサービスは一般的な AI モデルのデプロイメントを最適化し、生成的 AI アプリケーションとワークフローにシームレスに統合するための標準 API を提供します。NVIDIA NIM と GKE の組み合わせにより、AI モデル推論の可能性が拡大され、組織は GKE のスケールと運用効率により、最適な待ち時間とスループットを実現できます。ユーザーは、わずか数クリックで最新の NIM 最適化モデルを GKE にデプロイでき、以前に使用できた helm ベースのデプロイメントを拡張できます。このコラボレーションにより、デプロイメント能力が向上し、高度なテクノロジーを使用して最高のパフォーマンスと信頼性が確保されます。GKE で NVIDIA NIM を使用するには、Google Cloud コンソールで Google Kubernetes Engine に移動し、NVIDIA NIM を選択して、起動してデプロイメントを構成します。デプロイ後、NIM エンドポイントに接続して、curl コマンドでテスト推論を送信します。

cloud.google.com

Efficiently serve optimized AI models with NVIDIA NIM microservices on GKE

RSS Hunter

2024-10-08