비디오 주석자: 비전-언어 모델 및 액티브 러닝을 사용하여 비디오 분류기 구축

비디오 주석자(VA)는 비디오 분류기 훈련에서 직면하는 도전을 해결하는 프레임워크입니다. 비전-언어 모델과 적극적 학습을 활용하여 효율적인 주석을 가능하게 하여, 도메인 전문가가 프로세스를 지시할 수 있습니다. VA는 세 단계의 프로세스를 따릅니다. 텍스트-비디오 검색을 사용하여 초기 예제를 찾고, 인간-루프 시스템을 통해 적극적으로 학습하고 주석을 정제합니다. 그리고 반복적으로 주석을 검토하고 정제합니다. VA는 샘플 효율을 개선하고 비용을 줄이며 모델 품질을 향상시킵니다. 도메인 전문가가 주석에 직접 참여할 수 있도록 하여 신뢰와 소유감을 증진시킵니다. VA의 적극적 학습은 사용자가 점점 더 어려운 예제에 집중할 수 있도록 허용하여 주석 시간을 줄이고 모델 성능을 개선합니다. VA는 지속적인 주석을 지원하여 빠른 배포, 모니터링 및 엣지 케이스 수정을 가능하게 합니다. 사용자가 데이터 과학자 또는 제3자 주석자에 의존하지 않고 모델을 개선하고 반복할 수 있습니다. 실험 결과 VA가 기준 방법보다 더 높은 품질의 비디오 분류기를 생성하는 것으로 나타났습니다. VA는 다양한 비디오 이해 작업의 효율적인 주석을 가능하게 합니다. 도메인 전문가와 기계 학습 엔지니어 간의 협력을 촉진합니다. 저자는 VA를 사용하여 주석된 56개의 작업에 걸쳐 153k 개의 라벨이 포함된 데이터 세트를 제공하고, 복제 코드를 출시합니다. VA는 전통적인 분류기 훈련 기법의 도전을 해결하여 비디오 주석의 효율성, 품질 및 사용자 참여를 향상시킵니다. 이는 시스템에 대한 소유감과 신뢰를 촉진하여 정확한 비디오 분류기의 빠른 배포와 반복적인 개선을 가능하게 합니다.

netflixtechblog.com

Video annotator: building video classifiers using vision-language models and active learning

RSS Hunter

2024-06-19