Heute kündigen wir die allgemeine Verfügbarkeit des Amazon SageMaker HyperPod-Trainingsoperators an, einer speziell entwickelten Kubernetes-Erweiterung für die resilienten Grundmodell-Trainings auf HyperPod.
Amazon SageMaker HyperPod ermöglicht Kunden, die Entwicklung von KI-Modellen über Hunderte oder Tausende von GPUs mit integrierter Resilienz zu beschleunigen, was die Trainingszeit um bis zu 40% reduziert. Wenn Trainingscluster wachsen, wird die Wiederherstellung nach Trainingsunterbrechungen zunehmend störend. Die traditionelle Fehlerwiederherstellung erfordert einen vollständigen Job-Neustart auf allen Knoten, wenn auch nur ein Trainingsprozess fehlschlägt, was zu zusätzlicher Ausfallzeit und erhöhten Kosten führt. Darüber hinaus erfordert die Identifizierung und Behebung kritischer Trainingsprobleme wie stillstehender GPUs, niedriger Trainingsdurchsatz und numerischer Instabilitäten normalerweise komplexen benutzerdefinierten Überwachungscode, was die Entwicklungszeiten weiter verlängert und den Zeitpunkt der Markteinführung verzögert. Mit dem HyperPod-Trainingsoperator können Kunden die Trainingsresilienz für Kubernetes-Workloads weiter verbessern. Anstatt eines vollständigen Job-Neustarts bei Fehlern führt der HyperPod-Trainingsoperator eine chirurgische Wiederherstellung durch, indem nur die betroffenen Trainingsressourcen neu gestartet werden, um eine schnellere Wiederherstellung von Fehlern zu ermöglichen. Er führt auch eine anpassbare Überwachungsfunktion für hängende Jobs ein, um problematische Trainingszenarien wie stillstehende Trainingsbatchs, nicht-numerische Verlustwerte und Leistungsabbau durch einfache YAML-Konfigurationen zu überwinden. Loslegen ist einfach: Erstellen Sie einen HyperPod-Cluster, installieren Sie das Trainingsoperator-Add-on, definieren Sie optional benutzerdefinierte Wiederherstellungsrichtlinien für hängende Jobs und starten Sie das Training. Diese Veröffentlichung ist in allen AWS-Regionen verfügbar, in denen SageMaker HyperPod derzeit unterstützt wird.
Sehen Sie sich die Dokumentation an, um mehr zu erfahren.
aws.amazon.com
Announcing Amazon SageMaker HyperPod training operator
Create attached notes ...
