Amazon SageMaker 推理启动更快的自动缩放功能，以适应生成型 AI 模型

关注

Amazon SageMaker 推理启动更快的自动缩放功能，以适应生成型 AI 模型

1. Amazon SageMaker 引入了一项新功能，可以帮助减少生成型人工智能模型自动扩展所需的时间。 2. 这个新功能使用亚分钟指标来显著减少生成型人工智能模型的扩展延迟。 3. 这种增强可以在需求波动时提高生成型人工智能应用程序的响应速度。 4. SageMaker 提供了业界领先的能力来解决推理挑战，包括用于生成型人工智能推理的端点，以减少部署成本和延迟。 5. SageMaker 推理优化工具包可以在生成型人工智能性能方面提供高达两倍的吞吐量，同时将成本降低约 50%。 6. SageMaker 推理还提供了对 LLMs 的流媒体支持，允许实时流式传输令牌，而不是等待整个响应。 7. SageMaker 推理允许在同一个端点上部署单个模型或多个模型，使用 SageMaker 推理组件。 8. 引入了更快的自动扩展指标，包括每个模型的并发请求和每个副本的并发请求，这些指标提供了对系统负载的更直接和准确的表示。 9. 这些指标使得生成型人工智能模型的自动扩展速度更快，减少检测时间并改善总体扩展时间。 10. 使用这些新指标可以更好地扩展 LLM 部署，提供最佳性能和成本效率，而需求波动。

Amazon SageMaker inference launches faster auto scaling for generative AI models aws.amazon.com

RSS Hunter • 2024年7月29日