RSS Stories by Pinterest Engineering on Medium
Подписаться
Обновление PyTorch в продакшене без простоя: подходы, подводные камни и извлеченные уроки
Pinterest обновил свой стек машинного обучения с PyTorch 2.1 до 2.6, чтобы использовать новые функции и улучшить производительность. Это обновление включало решение таких проблем, как устаревшие зависимости, критические изменения API и совместимость с TorchScript. Они обновили Ubuntu DLAMI и версии CUDA в соответствии с требованиями PyTorch 2.6. Они столкнулись и решили проблемы с инициализацией TorchScript, отключив профилирование JIT и отключив fuser для TorchScript. Они смягчили критические изменения API, внедрив макрос времени компиляции для объединения версий. Для минимизации времени простоя и контроля влияния на производство было применено многоэтапное развертывание с временным окном. После обновления они исправили проблемы с потерей метрик DCGM, устранив конфликт ресурсов. Обновление также включало решение периодических сбоев развертывания моделей. Эти обновления включали переход на новый DLAMI, разрешение конфликтов и адаптацию к изменениям. Конечной целью было обеспечить плавный и надежный переход в производство.