YOLOv8에서 Grounding DINO로 제로 카피 C++ ONNX 파이프라인을 포팅하는 과정에서 심각한 CPU 캐시 병목 현상, 스레드 경합, 불안정한 그래프 최적화 문제가 드러났습니다. Transformer의 셀프 어텐션은 기존의 스케일링 로직을 무너뜨렸고, 이는 작업자 대 스레드 비율을 재고하고, 공격적인 ONNX 그래프 융합을 포기하며, INT8 양자화로 전략을 전환하도록 만들었습니다. 그 결과, "모든 것을 최적화하라"는 미신에 빠지지 않고 안정적인 양자화된 CPU 추론을 얻을 수 있었습니다.
hackernoon.com
Dino in the Machine: Surviving the Transformer Latency Trap in C++
bsky.app
Hacker & Security News on Bluesky @hacker.at.thenote.app
