RSS HackerNoon

Динозавр в машине: выживание в ловушке задержки Transformer в C++

Перенос с YOLOv8 на Grounding DINO в C++ ONNX-конвейере с нулевым копированием выявил серьезные узкие места в кэше процессора, перегрузку потоков и нестабильную оптимизацию графа. Самостоятельное внимание трансформера разрушило предыдущую логику масштабирования, вынудив пересмотреть соотношения рабочих процессов к потокам, отказаться от агрессивного слияния графов ONNX и стратегически перейти к квантованию INT8. Результат: стабильный, квантованный вывод на CPU без попадания в ловушку мифа "оптимизируй всё".
favicon
hackernoon.com
Dino in the Machine: Surviving the Transformer Latency Trap in C++
Изображение к статье: Динозавр в машине: выживание в ловушке задержки Transformer в C++