Сегодня мы объявляем о общедоступности оператора обучения Amazon SageMaker HyperPod, специализированного расширения Kubernetes для устойчивого обучения фундаментальных моделей на HyperPod.
Amazon SageMaker HyperPod позволяет клиентам ускорить разработку моделей искусственного интеллекта на hundreds или thousands GPU с встроенной устойчивостью, уменьшая время обучения моделей до 40%. По мере расширения кластеров обучения восстановление после сбоев становится все более разрушительным. Традиционный способ восстановления после сбоев требует полного перезапуска задачи на всех узлах, даже если только один процесс обучения fails, что приводит к дополнительному простою и увеличению затрат. Кроме того, идентификация и решение критических проблем обучения, таких как застывшие GPU, низкая производительность обучения и численные неустойчивости, обычно требует сложного настраиваемого кода мониторинга, что еще больше kéoит сроки разработки и отсрочивает время выхода на рынок. С оператором обучения HyperPod клиенты могутurther улучшить устойчивость обучения для рабочих нагрузок Kubernetes. Вместо полного перезапуска задачи при сбоях оператор обучения HyperPod выполняет хирургическое восстановление, перезапуская только затронутые ресурсы обучения для более быстрого восстановления после сбоев. Он также вводит настраиваемую функцию мониторинга застрявших задач, чтобы помочь преодолевать проблемные сценарии обучения, включая застывшие пакеты обучения, нечисленные значения потерь и ухудшение производительности, с помощью простых конфигураций YAML. Начать работу просто: создайте кластер HyperPod, установите добавку оператора обучения, опционально определите пользовательские политики восстановления для застрявших задач и запустите обучение. Этот выпуск доступен в общем доступе во всех регионах AWS, где поддерживается SageMaker HyperPod.
Узнайте больше в документации.
aws.amazon.com
Announcing Amazon SageMaker HyperPod training operator
Create attached notes ...
