RSS Stories by Pinterest Engineering on Medium
Подписаться
Обработка данных следующего поколения в огромных масштабах на Pinterest с помощью Moka (Часть 1 из 2)
Команда инженеров по обработке данных Pinterest создает новую масштабную платформу для обработки данных, которая заменит их нынешнюю платформу на базе Hadoop, Monarch. Команда исследовала системы на базе Kubernetes в качестве замены из-за их растущей популярности и увеличения использования в сообществе Big Data. Новая платформа должна была соответствовать определенным критериям, включая обширную поддержку контейнеров, выполнение пользовательского форка Spark от Pinterest и снижение операционных расходов и затрат на обслуживание. Команда провела комплексную оценку запуска Spark на различных платформах и склонялась к фреймворкам, ориентированным на Kubernetes, из-за их преимуществ, включая изоляцию и безопасность на основе контейнеров, простоту развертывания и встроенные фреймворки. Kubernetes предоставляет более детальную поддержку управления контейнерами и развертывания, чем другие системы, но не имеет встроенной поддержки управления данными, хранения и обработки. Текущая модель развертывания команды в Hadoop громоздка, и они движутся к более простому подходу с использованием Terraform, образов контейнеров и Helm. Новая платформа будет использовать Kubernetes и EKS для замены Monarch, что приведет к ряду проблем, включая интеграцию EKS в существующую среду Pinterest и поиск замены компонентов Hadoop. Команда создала новую платформу, Moka, которая способна обрабатывать пакетные рабочие нагрузки Spark, доступные только для нечувствительных данных, и в будущем добавит больше функциональности. Первоначальная высокоуровневая архитектура Moka включает систему, способную обрабатывать пакетные рабочие нагрузки Spark, с заданиями, которые отправляются и обрабатываются через ряд компонентов, включая Spinner, Archer и Spark Operator. Команда предоставит более подробную информацию о ключевых аспектах своей платформы, ориентированных на приложения, в следующей части своей серии статей в блоге.