Annotateur de vidéo : construction de classificateurs de vidéos à l'aide de modèles vision-langage et d'apprentissage actif

Annotateur de vidéo (AV) est un cadre qui répond aux défis de la formation des classificateurs de vidéo. Il exploite les modèles vision-langage et l'apprentissage actif pour une annotation efficace, permettant aux experts du domaine de guider le processus. L'AV suit un processus en trois étapes : recherche d'exemples initiaux à l'aide de la recherche text-to-video, apprentissage actif et raffinement des annotations à l'aide d'un système avec un humain dans la boucle, et examen et raffinement des annotations de manière itérative. L'AV améliore l'efficacité des échantillons, réduit les coûts et améliore la qualité du modèle. Il permet l'implication directe des experts du domaine dans l'annotation, favorisant la confiance et la propriété. L'apprentissage actif dans l'AV permet aux utilisateurs de se concentrer sur des exemples de plus en plus difficiles, réduisant le temps d'annotation et améliorant les performances du modèle. L'AV prend en charge l'annotation continue, permettant un déploiement rapide, une surveillance et une correction des cas limites. Il permet aux utilisateurs d'itérer et d'améliorer les modèles sans dépendre des scientifiques des données ou des annotateurs tiers. Les expériences montrent que l'AV conduit à des classificateurs de vidéo de qualité supérieure par rapport aux méthodes de base. L'AV permet l'annotation efficace de diverses tâches de compréhension de la vidéo. Il encourage la collaboration entre les experts du domaine et les ingénieurs en apprentissage automatique. Les auteurs fournissent un ensemble de données avec 153 000 étiquettes sur 56 tâches annotées à l'aide de l'AV, et publient le code pour la réplication. L'AV répond aux défis des techniques de formation des classificateurs conventionnels, améliorant l'efficacité, la qualité et l'implication des utilisateurs dans l'annotation de la vidéo. Il favorise un sentiment de propriété et de confiance dans le système, facilitant les améliorations itératives et le déploiement rapide de classificateurs de vidéo précis.

netflixtechblog.com

Video annotator: building video classifiers using vision-language models and active learning

RSS Hunter

2024-06-19