Инфраструктура больших данных использует Hadoop YARN на AWS с группами автомасштабирования (ASG) для обработки больших объемов данных. Компания использует Terraform для создания и управления кластерами, но масштабирование в (уменьшение) является сложным процессом, который требует ручных шагов. Для упрощения этого процесса Pinterest ввела Центр управления Hadoop (HCC), который позволяет автоматически масштабировать в и из кластеров. До HCC масштабирование в involved трудоемкий и ошибочно процесс выбора узлов для декомиссии, добавления их в файлы исключений и затем завершения их работы. HCC упрощает этот процесс, позволяя пользователям указать желаемый размер ASG, а инструмент обрабатывает остальное. HCC также интегрирует другие полезные инструменты для управления кластерами, включая отображение статуса узлов, отчетность о приложениях YARN и детали подсети и группы безопасности. Архитектура HCC состоит из узла-менеджера и рабочих узлов, где менеджер действует как посредник и кэш. Сервер операций Hadoop (HOS) является ядром HCC, который выполняет тяжелую работу по обновлению кэша JMX, поддержанию соединений тканей и обновлению файлов исключений. HCC периодически запрашивает и консолидирует JMX-данные, чтобы принимать решения о том, что делать, и управляет процессом декомиссии узлов.
medium.com
Automated Migration and Scaling of Hadoop™ Clusters
