RSS Stories by Pinterest Engineering on Medium
Подписаться
Поиск зомби в наших системах: реальная история о узких местах процессора
Команда платформы машинного обучения Pinterest столкнулась с сбоями обучающих заданий на базе Ray из-за периодических проблем с сетевым подключением, что побудило команду PinCompute провести расследование. Расследование, длившееся более трех месяцев, выявило, что сбои коррелировали с перезагрузками драйвера сети ENA на экземплярах AWS EC2. Эти перезагрузки, вызванные нехваткой ресурсов ЦП, были связаны с высоким использованием системного ЦП. Изначально команда пробовала различные решения, такие как использование больших страниц и распределителей памяти, но ни одно из них не помогло решить проблему. Странно, что проблемы возникали только в одной из зон доступности AWS Pinterest. Профилирование с использованием perf и mpstat выявило случаи насыщения одного ядра ЦП. Временное профилирование с использованием perf выявило виновника — процесс, который спорадически потреблял высокие ресурсы ЦП. Было установлено, что этим процессом является зомби-процесс. Обнаружение зомби-процессов и их влияние на использование ЦП и производительность сетевого драйвера привело к более глубокому пониманию узких мест системы.