L'infrastructure de données de Pinterest utilise Hadoop YARN sur AWS avec des groupes de mise à l'échelle automatique (ASG) pour traiter de grandes quantités de données. L'entreprise utilise Terraform pour créer et gérer des grappes, mais la mise à l'échelle descendante (réduction de taille) est un processus complexe qui nécessite des étapes manuelles. Pour simplifier ce processus, Pinterest a introduit le Hadoop Control Center (HCC), qui permet une mise à l'échelle automatique ascendante et descendante des grappes. Avant HCC, la mise à l'échelle descendante impliquait un processus fastidieux et sujet à erreurs consistant à sélectionner les nœuds à décommissionner, à les ajouter à des fichiers d'exclusion, puis à les terminer. HCC rationalise ce processus en permettant aux utilisateurs de spécifier la taille souhaitée de l'ASG, et l'outil gère le reste. HCC intègre également d'autres outils utiles pour la gestion des grappes, notamment l'affichage de l'état des nœuds, la génération de rapports sur les applications YARN et l'affichage des détails de sous-réseau et de groupe de sécurité. L'architecture de HCC se compose d'un nœud gestionnaire et de nœuds de travail, le nœud gestionnaire agissant comme un intermédiaire et un cache. Le serveur d'exploitation Hadoop (HOS) est le cœur de HCC, qui effectue les tâches lourdes de mise à jour du cache JMX, de maintenance des connexions de tissu et de mise à jour des fichiers d'exclusion. HCC interroge périodiquement et consolide les données JMX pour prendre des décisions sur ce qu'il faut faire, et il gère le processus de décommissionnement des nœuds.
medium.com
Automated Migration and Scaling of Hadoop™ Clusters
Create attached notes ...
