ETLからLakeflowへ:宣言型データパラダイムへの移行 ノート
DZone.comのRSS

ETLからLakeflowへ:宣言型データパラダイムへの移行

数年間データプラットフォームに携わった経験があれば、ほぼ間違いなく同じパイプラインを二度構築したことがあるでしょう。最初は、チームが2019年にパイプラインを記述した方法です。そこにはノートブックがあり、そこにはPythonスクリプトがあり、それらをまとめるためにAirflow DAGがあり、そして物事が実行されなければならない順序を説明する長いドキュメントがありました。次に、2年後に誰かが退職し、誰も特定のタスクにsleep(180)が含まれていた理由を思い出せなくなったときの書き直しです。 LakeflowはDatabricksのそのパターンへの回答であり、それが推進しているシフトはマーケティングが示唆するよりも大きいです。それは新しいオーケストレーターではありません。それは、ステップを記述する命令型パイプラインから、宛先を記述し、エンジンにステップを決定させる宣言型パイプラインへの移行です。以下は、そのシフトの実際的なバージョンです。つまり、実際に何が異なり、どこで利益が現実的であり、そして半ば変換されたレイクハウスで終わることなく移行する方法です。