Netflix Maestro와 Apache Iceber... 노트
DZone.com의 RSS

Netflix Maestro와 Apache Iceberg를 이용한 데이터 파이프라인 비용 절감 및 데이터 신선도 문제 해결: 실용적인 튜토리얼

분석 파이프라인은 비용과 데이터 소스의 최신성 측면에서 모두 확장되는 경향이 있습니다. 데이터 볼륨 증가에 따라 비용이 증가하는 반면, 배치 작업 시간이 길어짐에 따라 데이터 최신성은 감소합니다. 일반적인 접근 방식인 클러스터 확장(scaling out)은 아키텍처 문제보다는 증상을 해결합니다. 이 튜토리얼에서는 두 가지 문제를 근본적으로 해결하는 대안적인 솔루션을 살펴보겠습니다. 2024년 7월 넷플릭스가 오픈 소스로 공개한 수평 확장 가능한 워크플로우 오케스트레이터인 넷플릭스 마에스트로(Netflix Maestro)와 객체 스토리지 상의 분석을 위한 표준 테이블 형식인 아파치 아이스버그(Apache Iceberg)를 함께 사용하는 것입니다. 전자는 시간 기반 스케줄링에서 이벤트 기반으로 전환함으로써 도움을 주고, 후자는 대규모 데이터셋에 대한 쿼리를 느리게 하고 비용을 증가시키는 파일 목록 조회 오버헤드를 제거합니다.