Die Big-Data-Infrastruktur von Pinterest verwendet Hadoop YARN auf AWS mit Auto-Scaling-Gruppen (ASGs), um große Datenmengen zu verarbeiten. Das Unternehmen verwendet Terraform, um Cluster zu erstellen und zu verwalten, aber das Herunterskalieren (Downsizing) ist ein komplexer Prozess, der manuelle Schritte erfordert. Um diesen Prozess zu vereinfachen, hat Pinterest das Hadoop Control Center (HCC) eingeführt, das eine automatische Skalierung von Clustern ermöglicht. Bevor HCC verfügbar war, umfasste das Herunterskalieren einen mühsamen und fehleranfälligen Prozess, bei dem Knoten ausgewählt, in Exclude-Dateien hinzugefügt und dann beendet wurden. HCC vereinfacht diesen Prozess, indem Benutzern ermöglicht wird, die gewünschte ASG-Größe anzugeben, und das Tool den Rest übernimmt. HCC integriert auch andere nützliche Tools für die Cluster-Verwaltung, einschließlich der Anzeige des Knotenstatus, der Berichterstattung über YARN-Anwendungen und der Anzeige von Subnetz- und Sicherheitsgruppendetails. Die Architektur von HCC besteht aus einem Manager-Knoten und Worker-Knoten, wobei der Manager als Zwischeninstanz und Cache fungiert. Der Hadoop-Operations-Server (HOS) ist das Kernstück von HCC, das die schwere Arbeit der Aktualisierung des JMX-Caches, der Aufrechterhaltung von Fabric-Verbindungen und der Aktualisierung von Exclude-Dateien übernimmt. HCC fragt regelmäßig JMX-Daten ab und konsolidiert sie, um Entscheidungen darüber zu treffen, was zu tun ist, und verwaltet den Prozess der Außerbetriebnahme von Knoten.
medium.com
Automated Migration and Scaling of Hadoop™ Clusters
Create attached notes ...
