今日、アマゾンは、HyperPod上での堅牢な基礎モデルトレーニングのための特別に設計されたKubernetes拡張機能である、Amazon SageMaker HyperPodトレーニングオペレーターの一般提供を発表しました。
Amazon SageMaker HyperPodは、顧客が数百または数千のGPUを使用してAIモデル開発を加速できるようにし、組み込みの堅牢性により、モデルトレーニング時間を最大40%短縮します。トレーニングクラスターが拡大するにつれて、トレーニングの中断からの復旧はますます妨げられます。従来、トレーニングプロセスが1つでも失敗した場合、すべてのノードでジョブを完全に再起動する必要があり、追加のダウンタイムとコストの増加につながります。さらに、停止したGPU、低いトレーニングスループット、数値的不安定性などの重要なトレーニング問題を特定して解決するには、通常、開発タイムラインをさらに延長し、市場投入を遅らせる複雑なカスタム監視コードが必要です。HyperPodトレーニングオペレーターを使用すると、顧客はKubernetesワークロードのトレーニングの堅牢性をさらに強化できます。障害が発生した場合、完全なジョブの再起動ではなく、HyperPodトレーニングオペレーターは、影響を受けたトレーニングリソースのみを選択的に再起動して、障害からの復旧を高速化します。また、停止したトレーニングバッチ、非数値の損失値、パフォーマンスの低下などの問題的なトレーニングシナリオを克服するために、シンプルなYAML構成を使用して、ハングジョブの監視機能をカスタマイズできます。開始は簡単です。HyperPodクラスターを作成し、トレーニングオペレーターアドオンをインストールし、オプションでハングジョブのカスタム復旧ポリシーを定義し、トレーニングを開始します。このリリースは、現在SageMaker HyperPodがサポートされているすべてのAWSリージョンで一般提供されています。
詳細については、ドキュメントを参照してください。
aws.amazon.com
Announcing Amazon SageMaker HyperPod training operator
Create attached notes ...
