macOS에서 실시간 컴퓨터 비전: 비전 트랜스포머 가속화

안녕 친구들! 수년간 "컴퓨터 비전"은 합성곱 신경망(CNN)을 의미했습니다. 고양이를 감지하고 싶다면 CNN을 사용했습니다. 얼굴을 인식하고 싶다면 CNN을 사용했죠. 하지만 2020년에 판도가 바뀌었습니다. "이미지는 16x16 단어의 가치를 지닌다"라는 제목의 논문에서 Vision Transformer를 소개했습니다. 작은 슬라이딩 윈도우를 통해 픽셀을 살펴보는 대신 - 합성곱 - ViT는 이미지를 텍스트 패치 시퀀스로 취급합니다. ViT는 "전체 그림"을 한 번에 보고, 종종 더 나은 정확도를 보입니다.