Amazon SageMaker 推論が、生成型 AI モデル向けの高速自動スケーリングを導入

フォロー

Amazon SageMaker 推論が、生成型 AI モデル向けの高速自動スケーリングを導入

1. Amazon SageMakerは、生成AIモデルの自動スケール時間を短縮する新しい機能を導入しました。 2. この新機能は、生成AIモデルに対するスケール遅延を大幅短縮するために、1分未満のメトリックを使用します。 3. 需要が変動する場合、生成AIアプリケーションの応答性を向上させることができます。 4. SageMakerは、生成AIの推論に伴う課題に対処する業界最高の機能を提供し、特に生成AI推論用のエンドポイントを通じて展開コストと遅延を削減します。 5. SageMaker推論最適化ツールキットは、生成AIの性能向上のために、スループットを最大で2倍に向上させつつ、コストを約50%削減します。 6. SageMaker推論は、LLMに対するストリーミングサポートも提供し、完全な応答を待つ代わりに、リアルタイムでトークンをストリーミングします。 7. SageMaker推論では、単一のモデルか複数のモデルをSageMaker推論コンポーネントを使用して同じエンドポイントに展開できます。 8. 生成AIの自動スケールメトリックが導入されました。この中には、ConcurrentRequestsPerModelとConcurrentRequestsPerCopyが含まれ、システムの負荷をより直接的に正確に表現します。 9. これらのメトリックを使用することで、生成AIモデルの自動スケールが大幅に向上し、検出時間が短縮されて、スケールアウト時間が縮まります。 10. これらの新しいメトリックを使用することで、LLMの展開をより効果的にスケールし、需要が変動する場合に最適な性能とコスト効率を実現できます。

Amazon SageMaker inference launches faster auto scaling for generative AI models aws.amazon.com

RSS Hunter • 2024年7月29日