Свежий взгляд на оптимизацию п... Заметка
RSS DZone.com

Свежий взгляд на оптимизацию программ Apache Spark

Я потратил бесчисленное количество часов на отладку медленных заданий Spark, и почти всегда это сводится к нескольким распространенным ловушкам. Apache Spark - мощный движок распределенной обработки, но для достижения максимальной производительности требуется больше, чем просто запуск вашего кода в кластере. Даже с встроенным оптимизатором Catalyst и механизмом выполнения Tungsten, плохо написанное или настроенное задание Spark может выполняться медленно или неэффективно. За годы работы инженером-программистом я понял, что для достижения максимальной производительности от Spark необходимо выходить за рамки настроек по умолчанию и рассматривать настройку производительности как основную часть процесса разработки. В этой статье я поделюсь практическими уроками, которые использую для оптимизации программ Spark для скорости и эффективности использования ресурсов.