Снижение затрат на конвейеры д... Заметка
RSS DZone.com

Снижение затрат на конвейеры данных и решение проблем с актуальностью данных с помощью Netflix Maestro и Apache Iceberg: Практическое руководство

Аналитические конвейеры, как правило, масштабируются как по стоимости, так и по возрасту источников данных: затраты растут с увеличением объема данных, а актуальность данных снижается из-за более длительных пакетных заданий. Распространенный подход, масштабирование кластера, устраняет симптом, а не архитектурную проблему. В этом руководстве мы рассмотрим альтернативное решение, которое устраняет обе проблемы в их корне: использование Netflix Maestro, горизонтально масштабируемого оркестратора рабочих процессов, выпущенного Netflix в июле 2024 года, вместе с Apache Iceberg, стандартным форматом таблиц для аналитики в объектном хранилище. Первый помогает, переходя от планирования по времени к событийно-ориентированному подходу, в то время как последний устраняет накладные расходы на перечисление файлов, которые замедляют запросы к большим наборам данных и увеличивают их стоимость.