Amazon SageMaker および Amazon OpenSearch Serverless を使用して、オープンソースの大規模ビジョンモデルによるセマンティックビデオ検索を実装

この投稿では、大規模ビジョンモデル（LVM））を使用して、自然言語および画像クエリーによるセマンティックビデオ検索を実現する方法を示します。ビデオ検索パフォーマンスを向上させるために、temporal frame smoothingやクラスタリングなどのユースケース固有の方法を導入します。さらに、アマゾン SageMaker AI上での非同期およびリアルホストオプションを使用し、Hugging Face Model Hub上のパブリックアクセス可能なLVMを使用してビデオ、画像、テキスト処理を実現します。最後に、アマゾン OpenSearch Serverlessのベクトルエンジンを使用して低レイテンシーのセマンティックビデオ検索を実現します。