Amazon SageMaker와 Amazon OpenSearch Serverless에서 오픈 소스 대형 비전 모델을 사용하여 의미론적 비디오 검색을 구현합니다.

이 게시물에서는 자연어 및 이미지 쿼리를 사용하여 대형 비전 모델(LVM)을 활용한 의미 기반 비디오 검색 방법을 시연합니다. 비디오 검색 성능 향상을 위해 시간적 프레임 평활화 및 클러스터링과 같은 사용 사례별 방법을 소개합니다. 또한, Hugging Face Model Hub에서 공개적으로 사용 가능한 LVM을 사용하여 Amazon SageMaker AI에서 비동기식 및 실시간 호스팅 옵션을 모두 사용하여 비디오, 이미지 및 텍스트 처리를 수행함으로써 이 접근 방식의 엔드 투 엔드 기능을 시연합니다. 마지막으로, 저지연 의미 기반 비디오 검색을 위해 벡터 엔진을 갖춘 Amazon OpenSearch Serverless를 사용합니다.