RSS 데이터 과학으로 - Medium

VLMs 소개: 컴퓨터 비전 모델의 미래

야후(Yandex)의 컴퓨터 비전 팀 멤버인 로만 이사첸코(Roman Isachenko)는 시각 언어 모델(Visual Language Models, VLMs)을 사용한 멀티모달 이미지 검색 엔진 개발에 대해 논의한다. VLMs는 컴퓨터 비전의 새로운 전선으로 제로샷과 원샷 모드에서 다양한 기본적인 컴퓨터 비전 관련 작업을 해결할 수 있다. 저자는 멀티모달 신경망을 개발하는 기본 원리와 훈련 과정을 설명하고 이미지 검색을 위한 디자인 원리, 도전 과제 및 아키텍처를 탐구한다. VLMs는 일반적으로 세 가지 주요 구성 요소를 갖는다. 텍스트 모델(대규모 언어 모델, LLM), 이미지 모델(합성곱 신경망, CNN 또는 비전 트랜스포머) 및 중재자 역할을 하는 어댑터가 있다. 어댑터는 가장 흥미롭고 중요한 부분으로, 텍스트 모델과 이미지 인코더 간의 통신을 용이하게 한다. 어댑터에는 두 가지 유형이 있다. 프롬프트 기반 어댑터와 크로스 어텐션 기반 어댑터이다. 저자는 VLMs의 훈련 과정을 논의한다. 훈련 과정은 두 단계로 나뉜다. 사전 훈련과 정렬이다. 사전 훈련에는 텍스트와 이미지 모달리티를 연결하고 세계 지식을 모델에 로드하는 것이 포함된다. VLMs의 사전 훈련에 사용되는 데이터에는 세 가지 유형이 있다. 인터리브드 사전 훈련, 이미지-텍스트 쌍 사전 훈련 및 지시 기반 사전 훈련이다. 저자는 또한 VLMs의 품질을 평가하는 방법을 논의한다. 이는 오픈 소스 벤치마크에서 메트릭을 계산하고 사이드 바이 사이드(SBS) 평가를 사용하여 모델을 비교하는 것을 포함한다. 저자의 모델은 이중 언어로 영어와 러시아어로 응답할 수 있으며, 영어 오픈 소스 벤치마크와 SBS 비교를 사용할 수 있다. 저자는 또한 멀티모달리티를 Neuro, AI 기반 검색 제품에 추가한 경험을 공유한다. 사용자는 텍스트와 이미지를 사용하여 질문을 할 수 있다. Neuro의 파이프라인 아키텍처는 논의되고, 저자는 멀티모달리티 추가 이전에 프로세스가 어떻게 보였는지 설명한다. 저자는 VLMs가 멀티모달 이미지 검색 엔진 개발을 위한 강력한 도구라고 결론지으며, 복합 AI 시스템의 미래는 VLMs의 개발에 있다. 저자의 팀은 VLMs를 사용하여 28% 더 정확한 멀티모달 이미지 검색 엔진을 개발했으며, 저자는 이것이 VLMs 개발의 시작에 불과하다고 믿는다.
favicon
towardsdatascience.com
An Introduction to VLMs: The Future of Computer Vision Models
Create attached notes ...