In diesem Beitrag zeigen wir, wie man Large Vision Models (LVMs) für die semantische Videosuche mithilfe von natürlicher Sprache und Bildanfragen verwendet. Wir stellen einige anwendungsspezifische Methoden vor, wie z.B. zeitliche Frameglättung und Clustering, um die Leistung der Videosuche zu verbessern. Darüber hinaus demonstrieren wir die End-to-End-Funktionalität dieses Ansatzes, indem wir sowohl asynchrone als auch Echtzeit-Hosting-Optionen auf Amazon SageMaker AI nutzen, um Video-, Bild- und Textverarbeitung unter Verwendung öffentlich verfügbarer LVMs auf dem Hugging Face Model Hub durchzuführen. Abschließend verwenden wir Amazon OpenSearch Serverless mit seiner Vektor-Engine für die semantische Videosuche mit niedriger Latenz.
aws.amazon.com
Implement semantic video search using open source large vision models on Amazon SageMaker and Amazon OpenSearch Serverless
Create attached notes ...
