Резкое сокращение ошибок нехва... Заметка

Резкое сокращение ошибок нехватки памяти в Apache Spark в Pinterest

Pinterest, используя Apache Spark, столкнулся с частыми ошибками нехватки памяти (OOM) в своей среде обработки больших данных. Они внедрили "Автоматические повторные попытки выделения памяти" для автоматического повтора задач, завершающихся с ошибкой OOM на исполнителях с увеличенной памятью. Основной целью было снижение нагрузки на дежурных и экономия затрат, связанных с неудачными приложениями. Основная идея заключалась в назначении задачам с более высокими потребностями в памяти определенного профиля ресурсов. Эта пользовательская версия Apache Spark модифицирует цикл планирования для повторной попытки задач с большими профилями памяти, используя гибридный подход. Этот подход может увеличить процессорное время на задачу или, при необходимости, запускать физически более крупные исполнители. Реализация включала расширение основных классов Spark, таких как Task и TaskSetManager, и обновление SparkUI. Они разработали комплексную панель мониторинга для отслеживания влияния, измеряя экономию затрат и скорость восстановления заданий. Развертывание было поэтапным, начиная с ad-hoc заданий, а затем постепенно включая запланированные задания по уровням. Результаты успешно уменьшили ошибки OOM и оптимизировали использование ресурсов в кластере Spark.
CdXz5zHNQW_Np2gePBjyR.png