RSS DZone.com
Подписаться
От ETL к Lakeflow: переход к декларативной парадигме данных
Если вы работали на платформе данных более нескольких лет, вы почти наверняка дважды создавали один и тот же конвейер. Сначала так, как команда писала конвейеры в 2019 году: здесь блокнот, там скрипт Python, DAG Airflow для их связывания и длинный документ, объясняющий порядок выполнения задач. Затем переписывание, два года спустя, когда кто-то уволился, и никто не мог вспомнить, почему в определенной задаче было sleep(180).
Lakeflow — это ответ Databricks на эту модель, и сдвиг, к которому он призывает, больше, чем кажется из маркетинговых материалов. Это не новый оркестратор. Это переход от императивных конвейеров, где вы пишете шаги, к декларативным конвейерам, где вы пишете конечную точку, а движок сам определяет шаги. Далее следует практическая версия этого сдвига — что на самом деле изменилось, где выгоды реальны и как мигрировать, не получив наполовину преобразованный lakehouse.