Экспоненциальный рост моделей машинного обучения привел к все более крупным наборам данных, что вызвало бутылочное горлышко в жизненном цикле операций машинного обучения (MLOps). Традиционные методы предварительной обработки данных испытывают трудности с масштабированием, что делает фазу предварительной обработки серьезным препятствием для производительности. Чтобы решить эту проблему, предлагается распределенная конвейерная обработка данных, использующая Google Kubernetes Engine (GKE) и Ray, распределенную вычислительную платформу для масштабирования приложений Python. Фаза предварительной обработки имеет решающее значение для преобразования сырых данных в формат, пригодный для обучения модели, и включает задачи, такие как очистка данных, проектирование функций, масштабирование и кодирование. Представлен случай использования, в котором набор данных из 20 000 продуктов требует предварительной обработки, включая загрузку изображений в бакет Cloud Storage, что заняло бы более 8 часов для завершения в сериальном режиме. Чтобы решить эту проблему масштабируемости, параллелизм реализуется с помощью Ray, который распределяет обработку по нескольким потокам, что существенно сокращает общее время выполнения. Ray предоставляет простой API для распределения вычислений по нескольким рабочим процессам, что делает его сильным выбором для реализации параллельных конвейеров предварительной обработки данных. Используя Ray и GKE, время предварительной обработки 20 000 строк уменьшилось с более 8 часов до всего 17 минут, что представляет собой ускорение примерно в 23 раза. Распределенная предварительная обработка данных с помощью GKE и Ray обеспечивает прочное и масштабируемое решение для решения проблем предварительной обработки данных, ускорения подготовки данных и предоставления возможности специалистам по данным и инженерам машинного обучения сосредоточиться на разработке и инновациях моделей.
cloud.google.com
Distributed data preprocessing with GKE and Ray: Scaling for the enterprise
t.me
Читайте AI и ML Новости в Телеграмм канале @ai_ml_news_ru
Create attached notes ...