Aujourd'hui, nous annonçons la disponibilité générale de l'opérateur d'entraînement Amazon SageMaker HyperPod, une extension Kubernetes conçue spécifiquement pour l'entraînement de modèles de fondation résilient sur HyperPod.
Amazon SageMaker HyperPod permet aux clients d'accélérer le développement de modèles d'apprentissage automatique sur des centaines ou des milliers de GPU avec une résilience intégrée, réduisant le temps d'entraînement des modèles jusqu'à 40%. Lorsque les clusters d'entraînement s'étendent, la récupération après les interruptions d'entraînement devient de plus en plus perturbatrice. La récupération des échecs traditionnelle nécessite un redémarrage complet du travail sur tous les nœuds lorsque même un seul processus d'entraînement échoue, entraînant des temps d'arrêt supplémentaires et des coûts accrus. De plus, identifier et résoudre les problèmes d'entraînement critiques tels que les GPU bloqués, le débit d'entraînement faible et les instabilités numériques nécessite généralement du code de surveillance personnalisé complexe, prolongeant ainsi les délais de développement et retardant le temps de mise sur le marché. Avec l'opérateur d'entraînement HyperPod, les clients peuvent améliorer encore la résilience de l'entraînement pour les charges de travail Kubernetes. Au lieu d'un redémarrage complet du travail en cas d'échec, l'opérateur d'entraînement HyperPod effectue une récupération chirurgicale, redémarrant uniquement les ressources d'entraînement affectées pour une récupération plus rapide des erreurs. Il introduit également une fonction de surveillance de travail en attente configurable pour aider à surmonter les scénarios d'entraînement problématiques, notamment les lots d'entraînement bloqués, les valeurs de perte non numériques et la dégradation des performances, via des configurations YAML simples. Pour commencer, il suffit de créer un cluster HyperPod, d'installer l'add-on de l'opérateur d'entraînement, de définir éventuellement des politiques de récupération personnalisées pour les travaux en attente et de lancer l'entraînement. Cette version est disponible dans toutes les régions AWS où SageMaker HyperPod est actuellement pris en charge.
Voir la documentation pour en savoir plus.
aws.amazon.com
Announcing Amazon SageMaker HyperPod training operator
Create attached notes ...
