停止将所有数据加载到 Redshift：一种结合 Spectrum 与 Iceberg 的混合分析模式

关注

停止将所有数据加载到 Redshift：一种结合 Spectrum 与 Iceberg 的混合分析模式

并非所有数据集都完全适合存储在数据仓库中。采用基于 S3 的 Apache Iceberg、Redshift Spectrum 以及 Redshift 本地表的混合架构，可以减少重复存储，并将数据仓库的性能保留给真正需要的工作负载。数据仓库沦为第二个数据湖 Redshift 集群中经常存放着本不该存在的表。五年的交易历史通过每晚一次的 COPY 作业加载，耗时四小时，却仅在每季度查询两次。原始事件表直接落入了数据仓库，因为数据湖管道的搭建更为复杂。那些无人负责的聚合表因删除它们令人感到风险而一直被保留下来。

Stop Loading Everything into Redshift: A Spectrum + Iceberg Pattern for Hybrid Analytics dzone.com

RSS Hunter • 6月12日