В этом посте мы демонстрируем, как использовать большие модели зрения (БМВ) для семантического поиска видео с использованием естественного языка и запросов изображений. Мы вводим некоторые методы, специфичные для конкретных случаев использования, такие как временное сглаживание кадров и кластеризацию, для улучшения производительности поиска видео. Кроме того, мы демонстрируем функциональность конца в конец этого подхода, используя как асинхронные, так и реальные варианты хостинга на Amazon SageMaker AI для выполнения видео-, изображений и текстовой обработки с использованием общедоступных БМВ на Hugging Face Model Hub. Наконец, мы используем Amazon OpenSearch Serverless с его векторным двигателем для низколатентного семантического поиска видео.
aws.amazon.com
Implement semantic video search using open source large vision models on Amazon SageMaker and Amazon OpenSearch Serverless
Create attached notes ...
