Перенос с YOLOv8 на Grounding DINO в C++ ONNX-конвейере с нулевым копированием выявил серьезные узкие места в кэше процессора, перегрузку потоков и нестабильную оптимизацию графа. Самостоятельное внимание трансформера разрушило предыдущую логику масштабирования, вынудив пересмотреть соотношения рабочих процессов к потокам, отказаться от агрессивного слияния графов ONNX и стратегически перейти к квантованию INT8. Результат: стабильный, квантованный вывод на CPU без попадания в ловушку мифа "оптимизируй всё".
hackernoon.com
Dino in the Machine: Surviving the Transformer Latency Trap in C++
Create attached notes ...
