停止将所有数据加载到 Redshift:一种结合 Spectrum 与 Iceberg 的混合分析模式
并非所有数据集都完全适合存储在数据仓库中。采用基于 S3 的 Apache Iceberg、Redshift Spectrum 以及 Redshift 本地表的混合架构,可以减少重复存储,并将数据仓库的性能保留给真正需要的工作负载。
数据仓库沦为第二个数据湖
Redshift 集群中经常存放着本不该存在的表。五年的交易历史通过每晚一次的 COPY 作业加载,耗时四小时,却仅在每季度查询两次。原始事件表直接落入了数据仓库,因为数据湖管道的搭建更为复杂。那些无人负责的聚合表因删除它们令人感到风险而一直被保留下来。