DZone.comのRSS
フォロー
Netflix MaestroとApache Icebergによるデータパイプラインコストの削減とデータ鮮度問題の解決:実践チュートリアル
分析パイプラインは、コストとデータソースの古さの両方でスケールする傾向があります。コストはデータ量の増加とともに増加し、バッチ処理時間が長くなるにつれてデータの鮮度が低下します。一般的なアプローチであるクラスターのスケーリングアウトは、アーキテクチャの問題ではなく、その症状に対処します。
このチュートリアルでは、両方の問題を根本的に解決する代替ソリューションを見ていきます。Netflixが2024年7月にオープンソース化した水平スケーラブルなワークフローオーケストレーターであるNetflix Maestroと、オブジェクトストレージ上の分析のための標準テーブルフォーマットであるApache Icebergを使用します。前者は時間ベースのスケジューリングからイベント駆動型への移行によって役立ち、後者は大規模データセットに対するクエリを遅くし、コストを増加させるファイルリストのオーバーヘッドを排除します。