ピンタレストの大規模データインフラストラクチャーは、AWS上のYARN on Hadoopを使用し、Auto Scaling Groups(ASGs)を使用して大量のデータを処理しています。同社は、クラスターの作成と管理のためにTerraformを使用していますが、スケーリングイン(ダウンサイジング)は複雑なプロセスであり、手動でのステップが必要です。 このプロセスを簡略化するために、ピンタレストはHadoop Control Center(HCC)を導入しました。これにより、クラスターの自動スケーリングインとアウトが可能になりました。HCC以前は、スケーリングインには、ノードを選択して除外ファイルに追加し、最後に終了するという退屈でエラープローンなプロセスが必要でした。HCCは、このプロセスを簡略化することで、ユーザーが望むASGサイズを指定するだけで、ツールが残りの作業を処理します。HCCは、クラスター管理のための他の有用ツールも統合しています。これには、ノードのステータスを表示、YARNアプリケーションのレポート、サブネットとセキュリティグループの情報を示すことが含まれます。HCCのアーキテクチャーは、マネージャーノードとワーカーノードで構成されており、マネージャーが中間者としてキャッシュを保持しています。Hadoop Operations Server(HOS)はHCCのコアであり、JMXキャッシュの更新、ファブリック接続の維持、除外ファイルの更新などの重い作業を処理しています。HCCは、JMXデータを定期的に照会し、統合して、ノードの廃棄プロセスを管理しています。
medium.com
Automated Migration and Scaling of Hadoop™ Clusters
Create attached notes ...