Оптимизация эффективности сети... Заметка

Оптимизация эффективности сети рабочей нагрузки ML (Часть I): Обрезчик особенностей

Онлайн-система машинного обучения Pinterest использует архитектуру "корень-лист", где клиентские сервисы запрашивают оценки для пинов. Корневой компонент отвечает за извлечение и предварительную обработку признаков, а листья выполняют инференс моделей, часто на GPU. Такая конструкция упрощает внедрение новых моделей и оптимизирует использование ресурсов, разделяя рабочие нагрузки CPU и GPU. Однако это привело к сетевому узкому месту между корневой и листовой частями из-за передачи большого количества признаков.Изначально для снижения сетевой нагрузки была реализована компрессия lz4, что привело к значительной экономии пропускной способности, но с небольшим увеличением использования CPU и задержки. Это было хорошее начало, но основная проблема отправки ненужных признаков сохранялась. Затем был разработан подход "Отправляй только то, что используется", чтобы решить эту проблему, отправляя только те признаки, которые требуются конкретной модели.Сигнатура модели, определяющая входы и выходы модели, служит источником истины для требований к признакам. По мере обучения и экспорта моделей их сигнатуры сохраняются вместе с ними. Leaften загружает эти сигнатуры для создания конвертеров признаков, которые обрабатывают только необходимые признаки.Для синхронизации требований к признакам между корнем и листьями сигнатуры моделей публикуются в виде легковесных артефактов. Эти сигнатуры агрегируются в отображения на уровне пакетов, которые затем развертываются в корне вместе с существующими конфигурациями. Это развертывание следует тому же процессу поэтапной доставки, что и развертывание моделей, обеспечивая согласованность и возможность плавного отката.Эта интеграция позволяет "Обрезчику признаков" динамически обновлять списки разрешенных признаков в корне, гарантируя передачу только необходимых признаков. Система спроектирована для обработки частых обновлений моделей и постепенного развертывания с использованием версионированных поисков и механизмов резервного копирования. Это гарантирует, что представление корня о требуемых признаках остается синхронизированным с фактическими моделями, развернутыми на листьях. Обрезая ненужные признаки, Pinterest значительно сократил сетевой трафик и повысил эффективность инфраструктуры.
CdXz5zHNQW_Pr67hugpQp.png