모든 것을 Redshift로 로딩하는 것을 중단하세요:... 노트
DZone.com의 RSS

모든 것을 Redshift로 로딩하는 것을 중단하세요: 하이브리드 분석을 위한 Spectrum + Iceberg 패턴

모든 데이터셋이 웨어하우스 내부에 완전히 속하는 것은 아닙니다. Amazon S3, Redshift Spectrum, Redshift 로컬 테이블을 사용하는 Apache Iceberg 기반의 하이브리드 설계는 중복 스토리지를 줄이고, 필요한 워크로드에 대해 웨어하우스 성능을 확보할 수 있습니다. 웨어하우스가 두 번째 데이터 레이크가 되다 Redshift 클러스터는 정기적으로 존재해서는 안 되는 테이블을 보유하고 있습니다. 5년간의 거래 기록이 4시간의 COPY 작업을 통해 매일 밤 로드되고 분기별로 두 번 쿼리됩니다. 데이터 레이크 파이프라인 설정이 더 어려웠기 때문에 원시 이벤트 테이블이 웨어하우스에 직접 로드되었습니다. 아무도 소유하지 않는 집계 데이터가 삭제하기 위험하다고 느껴져 보관되고 있습니다.