ETL에서 Lakeflow로: 선언형 데이터 패러다임으... 노트
DZone.com의 RSS

ETL에서 Lakeflow로: 선언형 데이터 패러다임으로의 전환

몇 년 이상 데이터 플랫폼에서 일해본 사람이라면 거의 확실히 같은 파이프라인을 두 번 구축했을 것입니다. 첫 번째는 2019년에 팀이 파이프라인을 작성했던 방식입니다. 여기 노트북 하나, 저기 파이썬 스크립트 하나, 그것들을 묶어주는 에어플로우 DAG, 그리고 어떤 순서로 실행되어야 하는지를 설명하는 긴 문서. 그런 다음 2년 후, 누군가가 퇴사했고 아무도 특정 작업에 왜 sleep(180)이 포함되어 있는지 기억할 수 없었을 때 재작업을 했습니다. 레이크플로우는 이러한 패턴에 대한 데이터브릭스의 답변이며, 이로 인해 추진되는 변화는 마케팅에서 들리는 것보다 더 큽니다. 이것은 새로운 오케스트레이터가 아닙니다. 이것은 단계를 작성하는 명령형 파이프라인에서 목적지를 작성하고 엔진이 단계를 파악하도록 하는 선언형 파이프라인으로의 전환입니다. 이어지는 내용은 이러한 전환의 실질적인 버전입니다. 실제로 무엇이 다르며, 이득이 실제로 발생하는 부분은 어디이고, 절반만 변환된 레이크하우스로 끝나지 않고 마이그레이션하는 방법입니다.