미디엄의 Pinterest 엔지니어링 팀의 RSS 스토리

하둡 클러스터의 자동 마이그레이션 및 크기 조정

Pinterest의 빅데이터 인프라는 대량의 데이터를 처리하기 위해 자동 확장 그룹(ASG)과 함께 AWS의 Hadoop YARN을 사용합니다. 이 회사는 클러스터를 생성하고 관리하는 데 Terraform을 사용하지만, 스케일 인(다운사이징)은 수동 단계가 필요한 복잡한 프로세스입니다. 이 프로세스를 간소화하기 위해 Pinterest는 클러스터를 자동으로 스케일 인 및 스케일 아웃할 수 있는 Hadoop Control Center(HCC)를 도입했습니다. HCC 이전에는 스케일 인을 하려면 해제할 노드를 선택하고, 파일을 제외하기 위해 노드를 추가한 다음 종료하는 지루하고 오류가 발생하기 쉬운 프로세스를 거쳐야 했습니다. HCC는 사용자가 원하는 ASG 크기를 지정하면 나머지는 도구가 처리하여 이 프로세스를 간소화합니다. 또한 HCC는 노드 상태 표시, YARN 애플리케이션에 대한 보고, 서브넷 및 보안 그룹 세부 정보 표시 등 클러스터 관리에 유용한 다른 도구도 통합되어 있습니다. HCC의 아키텍처는 매니저 노드와 워커 노드로 구성되며, 매니저는 중개자 및 캐시 역할을 합니다. Hadoop 운영 서버(HOS)는 HCC의 핵심으로, JMX 캐시 업데이트, 패브릭 연결 유지, 제외 파일 업데이트와 같은 무거운 작업을 수행합니다. HCC는 주기적으로 JMX 데이터를 쿼리하고 통합하여 수행할 작업에 대한 결정을 내리고 노드를 폐기하는 프로세스를 관리합니다.
favicon
medium.com
Automated Migration and Scaling of Hadoop™ Clusters
기사 이미지: 하둡 클러스터의 자동 마이그레이션 및 크기 조정