Новая архитектура Amazon SageMaker Lakehouse автоматизирует оптимизацию таблиц Apache Iceberg в Amazon S3
Архитектура Amazon SageMaker Lakehouse теперь автоматизирует оптимизацию таблиц Apache Iceberg, хранящихся в Amazon S3, с помощью конфигурации на уровне каталога. Это уменьшает накладные расходы на метаданные и улучшает производительность запросов.
Ранее для оптимизации таблиц Iceberg в AWS Glue Data Catalog требовалось индивидуальное обновление конфигураций для каждой таблицы. Теперь можно включить автоматическую оптимизацию для новых таблиц Iceberg с помощью однократной конфигурации Data Catalog.
После включения Data Catalog будет непрерывно оптимизировать таблицы, включая:
- Компактификацию мелких файлов: Объединение мелких файлов в более крупные для повышения эффективности чтения.
- Удаление снимков: Очистка устаревших снимков таблиц, которые больше не нужны.
- Удаление неиспользуемых файлов: Очистка файлов, на которые больше нет ссылок, для сокращения затрат на хранение.
В результате вы получаете:
- Контролируемые затраты на хранение: За счет эффективного управления файлами и снимками.
- Более быстрые запросы: Благодаря оптимизированной структуре таблиц.
Как начать
1. Выберите каталог по умолчанию в консоли AWS Lake Formation.
2. Включите оптимизации на вкладке конфигурации оптимизации таблиц.
Гибкая настройка
Вы можете получить дополнительный гранулярный контроль на уровне конфигурации таблиц, например:
- Стратегия компактификации (сортировка/Z-порядок).
- Пороги для количества мелких файлов, запускающих компактификацию.
- Интервалы между последовательными истечениями срока действия снимков.
- Операции очистки неиспользуемых данных.
Доступность
Эта функция доступна через AWS Management Console, AWS CLI и AWS SDK в 15 регионах AWS:
- Восточный США (Северная Вирджиния, Огайо)
- Западный США (Орегон)
- Канада (Центральный)
- Европа (Ирландия, Лондон, Франкфурт, Стокгольм)
- Азиатско-Тихоокеанский регион (Токио, Сеул, Мумбаи, Сингапур, Сидней, Джакарта)
- Южная Америка (Сан-Паулу)
Чтобы узнать больше, прочитайте [блог](ссылка на блог) и ознакомьтесь с [документацией по Data Catalog](ссылка на документацию).
aws.amazon.com
Amazon SageMaker lakehouse architecture now automates optimization configuration of Apache Iceberg tables
Create attached notes ...