Apparate: модели раннего завершения для оптимизации задержки и пропускной способности машинного обучения — история и платформы

Модели машинного обучения (ML) регулярно используются для обслуживания запросов в интерактивных приложениях, таких как анализ видео в реальном времени 13, 49, рекомендательные системы 50 или голосовые помощники 12. Для управления такими рабочими нагрузками приложения используют платформы, такие как ONNX runtime 5, TensorFlow-Serving 39, PyTorch Serve 9, Triton Inference Server 4 и другие. Эти платформы обмениваются моделями с приложениями, часто в формате графов. Общие показатели уровня обслуживания (SLO) находятся в диапазоне от 10 до 100 миллисекунд, например, для анализа видео в реальном времени.

hackernoon.com

Apparate: Early-Exit Models for ML Latency and Throughput Optimization - Background and Platforms

TheNote.app (macOS, iOS and Android apps)

2024-10-02

Create attached notes ...