Модели машинного обучения (ML) регулярно используются для обслуживания запросов в интерактивных приложениях, таких как анализ видео в реальном времени 13, 49, рекомендательные системы 50 или голосовые помощники 12. Для управления такими рабочими нагрузками приложения используют платформы, такие как ONNX runtime 5, TensorFlow-Serving 39, PyTorch Serve 9, Triton Inference Server 4 и другие. Эти платформы обмениваются моделями с приложениями, часто в формате графов. Общие показатели уровня обслуживания (SLO) находятся в диапазоне от 10 до 100 миллисекунд, например, для анализа видео в реальном времени.
hackernoon.com
Apparate: Early-Exit Models for ML Latency and Throughput Optimization - Background and Platforms