Amazon SageMaker のレイクハウスアーキテクチャは、Amazon S3 に保存された Apache Iceberg テーブルの最適化を、カタログレベルの構成で自動化するようになりました。これにより、メタデータオーバーヘッドが削減され、クエリパフォーマンスが向上します。従来、AWS Glue Data Catalog で Iceberg テーブルを最適化するには、テーブルごとに個別に構成を更新する必要がありました。今回、Data Catalog の構成を一度行うだけで、新しい Iceberg テーブルの自動最適化を有効にできるようになりました。有効化されると、新しいテーブルまたは更新されたテーブルに対して、Data Catalog は継続的にテーブルを最適化します。具体的には、小さなファイルの圧縮、スナップショットの削除、不要になった参照されていないファイルのクリーンアップが行われるため、ストレージコストが管理され、クエリが高速化されます。
開始するには、AWS Lake Formation コンソールでデフォルトのカタログを選択し、「テーブルの最適化」構成タブで最適化を有効にします。さらに、ソート/Zオーダー圧縮戦略、圧縮をトリガーする小さなファイルの数に対するしきい値、連続するスナップショット有効期限間の間隔、参照されていないデータクリーンアップ操作など、テーブル構成レベルで詳細な制御を選択できます。
この機能は、AWS マネジメントコンソール、AWS CLI、AWS SDK を通じて、15 の AWS リージョンで利用可能です。対象リージョンは、米国東部(バージニア北部、オハイオ)、米国西部(オレゴン)、カナダ(中部)、欧州(アイルランド、ロンドン、フランクフルト、ストックホルム)、アジア太平洋(東京、ソウル、ムンバイ、シンガポール、シドニー、ジャカルタ)、南米(サンパウロ)です。詳細については、ブログ記事をお読みください。また、Data Catalog のドキュメントもご覧ください。
aws.amazon.com
Amazon SageMaker lakehouse architecture now automates optimization configuration of Apache Iceberg tables
Create attached notes ...