Amazon SageMaker запускает быстрое авто-масштабирование для генеративных моделей ИИ

1. Amazon SageMaker представил новую функцию, которая может сократить время автоматического масштабирования для генеративных моделей ИИ. 2. Эта функция использует метрики, измеряемые в течение менее минуты, чтобы значительно уменьшать общую задержку масштабирования для генеративных моделей ИИ. 3. Это улучшение может увеличить отзывчивость приложений с генеративным ИИ при изменении спроса. 4. SageMaker предлагает лидирующие в отрасли возможности по решению проблем с выводом, включая конечные точки для вывода генеративного ИИ, которые сокращают затраты на развертывание и задержку. 5. Набор инструментов для оптимизации вывода SageMaker может обеспечивать до двух раз более высокую производительность при сокращении затрат примерно на 50% для производительности генеративного ИИ. 6. Вывод SageMaker также обеспечивает потоковую поддержку для LLM, позволяя потоковым токенам в реальном времени, а не ожидать полного ответа. 7. Вывод SageMaker позволяет развертывать одну модель или несколько моделей с помощью компонентов вывода SageMaker на одном и том же конечной точке. 8. Быстрее метрики для автоматического масштабирования были представлены, включая ConcurrentRequestsPerModel и ConcurrentRequestsPerCopy, которые обеспечивают более прямое и точное представление нагрузки на систему. 9. Эти метрики позволяют значительно быстрее масштабировать, сокращая время обнаружения и улучшая общее время масштабирования генеративных моделей ИИ. 10. Использование этих новых метрик может помочь в более эффективной масштабировке развертываний LLM, обеспечивая оптимальную производительность и затраты при изменении спроса.

Amazon SageMaker inference launches faster auto scaling for generative AI models aws.amazon.com

RSS Hunter • 28 июл. 2024 г.