오늘, Amazon SageMaker HyperPod에서 탄력적인 파운데이션 모델 훈련을 위해 특별히 제작된 Kubernetes 확장 프로그램인 Amazon SageMaker HyperPod 훈련 연산자의 일반 사용을 발표합니다.
Amazon SageMaker HyperPod는 고객이 내장된 복원력을 통해 수백 또는 수천 개의 GPU에서 AI 모델 개발을 가속화하여 모델 훈련 시간을 최대 40%까지 단축할 수 있도록 지원합니다. 훈련 클러스터가 확장됨에 따라 훈련 중단으로부터의 복구가 점점 더 파괴적이 됩니다. 기존의 오류 복구 방식은 단일 훈련 프로세스가 실패하더라도 모든 노드에서 전체 작업을 다시 시작해야 하므로 추가 가동 중지 시간과 비용 증가를 초래합니다. 또한 정체된 GPU, 낮은 훈련 처리량, 수치적 불안정과 같은 중요한 훈련 문제를 식별하고 해결하려면 일반적으로 복잡한 맞춤형 모니터링 코드가 필요하여 개발 기간이 더욱 길어지고 출시 시기가 지연됩니다. HyperPod 훈련 연산자를 사용하면 고객은 Kubernetes 워크로드에 대한 훈련 복원력을 더욱 향상시킬 수 있습니다. 오류 발생 시 전체 작업을 다시 시작하는 대신 HyperPod 훈련 연산자는 외과적 복구를 수행하여 오류로부터 더 빠르게 복구하기 위해 영향을 받은 훈련 리소스만 선택적으로 다시 시작합니다. 또한 간단한 YAML 구성을 통해 정체된 훈련 배치, 비숫자 손실 값 및 성능 저하를 포함한 문제가 있는 훈련 시나리오를 극복하는 데 도움이 되는 사용자 정의 가능한 중단 작업 모니터링 기능도 도입되었습니다. 시작하는 방법은 간단합니다. HyperPod 클러스터를 만들고, 훈련 연산자 애드온을 설치하고, 필요에 따라 중단 작업에 대한 사용자 정의 복구 정책을 정의하고, 훈련을 시작하십시오. 이 릴리스는 현재 SageMaker HyperPod가 지원되는 모든 AWS 리전에서 일반적으로 사용할 수 있습니다.
자세한 내용은 설명서를 참조하십시오.
aws.amazon.com
Announcing Amazon SageMaker HyperPod training operator
