Amazon SageMaker 레이크하우스 아키텍처가 이제 Amazon S3에 저장된 Apache Iceberg 테이블의 최적화를 카탈로그 수준 구성으로 자동화하여 메타데이터 오버헤드를 줄이고 쿼리 성능을 향상시킵니다. 이전에는 AWS Glue Data Catalog에서 Iceberg 테이블을 최적화하려면 각 테이블별로 개별적으로 구성을 업데이트해야 했습니다. 이제 일회성 Data Catalog 구성으로 새 Iceberg 테이블에 대한 자동 최적화를 활성화할 수 있습니다. 활성화되면 새 테이블 또는 업데이트된 테이블에 대해 Data Catalog는 작은 파일을 압축하고, 스냅샷을 제거하며, 더 이상 필요하지 않은 참조되지 않은 파일을 정리하여 테이블을 지속적으로 최적화하므로 스토리지 비용을 제어하고 쿼리 속도를 높일 수 있습니다.
AWS Lake Formation 콘솔에서 기본 카탈로그를 선택하고 테이블 최적화 구성 탭에서 최적화를 활성화하여 시작할 수 있습니다. 정렬/z-순서 압축 전략, 압축을 트리거할 작은 파일 수에 대한 임계값, 연속 스냅샷 만료 간의 간격, 참조되지 않은 데이터 정리 작업과 같은 추가적인 세분화된 제어를 테이블 구성 수준에서 선택할 수 있습니다.
이 기능은 15개 AWS 리전(미국 동부(버지니아 북부, 오하이오), 미국 서부(오레곤), 캐나다(중부), 유럽(아일랜드, 런던, 프랑크푸르트, 스톡홀름), 아시아 태평양(도쿄, 서울, 뭄바이, 싱가포르, 시드니, 자카르타), 남미(상파울루))에서 AWS Management Console, AWS CLI 및 AWS SDK를 통해 사용할 수 있습니다. 자세히 알아보려면 블로그를 읽고 Data Catalog 문서를 방문하세요.
aws.amazon.com
Amazon SageMaker lakehouse architecture now automates optimization configuration of Apache Iceberg tables
Create attached notes ...