핀터레스트의 대규모 데이터 처리 기술, Moka (2부... 노트

핀터레스트의 대규모 데이터 처리 기술, Moka (2부/2부)

Pinterest는 노후된 Hadoop 기반 시스템을 대체하기 위해 차세대 데이터 처리 플랫폼인 Moka를 개발하고 있습니다. 이 플랫폼은 AWS Elastic Kubernetes Service (EKS)에 배포되어 테스트, 개발, 스테이징, 프로덕션의 4가지 환경에서 운영됩니다. Terraform은 사용자 정의 AWS 모듈과 Helm 차트를 사용하여 EKS 클러스터 배포를 관리합니다. Moka의 핵심 구성 요소는 로깅 인프라로, Fluent Bit를 사용하여 EKS 제어 평면, Spark 애플리케이션 및 시스템 포드에서 Amazon S3로 로그를 수집하고 내보냅니다. Fluent Bit는 고유한 작업 ID별로 Spark 애플리케이션 로그를 그룹화하고, YuniKorn 로그를 파싱하여 리소스 사용량 요약을 제공하도록 구성되어 있습니다. 관찰 가능성을 위해 Pinterest는 Prometheus 호환 프레임워크를 사용하여 메트릭을 수집합니다. 그들은 기존 TSDB 기반 Statsboard 시스템과 Prometheus 메트릭을 연결하기 위해 kubemetricsexporter라는 사용자 정의 사이드카를 개발했습니다. OpenTelemetry Collector는 Prometheus 메트릭을 위해 특별히 구성된 파이프라인을 통해 텔레메트리 데이터를 수신, 처리 및 내보내는 데 사용됩니다. 이 강력한 인프라는 Pinterest에서 대규모 데이터 처리를 효율적이고 안정적으로 수행할 수 있도록 지원하는 것을 목표로 합니다.
CdXz5zHNQW_slhDyOmW2y.png