Redshiftへの全てのロードを停止する:ハイブリッド分析... ノート
DZone.comのRSS

Redshiftへの全てのロードを停止する:ハイブリッド分析のためのSpectrum + Icebergパターン

すべてのデータセットが完全にウェアハウス内に収まるわけではありません。S3上のApache Iceberg、Redshift Spectrum、およびRedshiftローカルテーブルを使用したハイブリッド設計は、重複ストレージを削減し、必要なワークロードのためにウェアハウスのパフォーマンスを確保することができます。 ウェアハウスはセカンドデータレイクになった Redshiftクラスターは、本来そこにあるべきではないテーブルを日常的に保持しています。5年間のトランザクション履歴は、4時間のCOPYジョブを通じて毎晩ロードされ、四半期に2回クエリされます。生のイベントテーブルは、レイクパイプラインのセットアップが難しいため、ウェアハウスに直接ロードされました。誰も所有権を持たない集計データは、削除するのがリスクが高いと感じられるため、そのまま保持されています。