RSS DZone.com
Подписаться
Прекратите загружать все в Redshift: шаблон Spectrum + Iceberg для гибридной аналитики
Не каждый набор данных полностью помещается в хранилище данных. Гибридная архитектура с использованием Apache Iceberg на S3, Redshift Spectrum и локальных таблиц Redshift может сократить дублирование хранилища и сохранить производительность хранилища для тех рабочих нагрузок, которые в ней нуждаются.
Хранилище данных стало вторым озером данных
Кластеры Redshift регулярно содержат таблицы, которых там быть не должно. Пятилетняя история транзакций загружается каждую ночь в течение четырехчасовой задачи COPY и запрашивается дважды в квартал. Таблицы с необработанными событиями загружаются непосредственно в хранилище данных, потому что настроить конвейер озера данных было сложнее. Агрегаты, которыми никто не владеет, сохраняются, потому что их удаление кажется рискованным.