RSS Netflix TechBlog - Medium

Аннотатор видео: создание видеоклассификаторов с помощью моделей зрения-языка и активного обучения

Video Annotator (VA) - это фреймворк, который решает задачи в обучении видеоклассификаторов. Он использует модели зрения-языка и активное обучение для эффективной аннотации, позволяя экспертам в соответствующей области направлять процесс. VA проходит через трехэтапный процесс: поиск начальных примеров с помощью поиска видео по тексту, активное обучение и уточнение аннотаций с помощью системы с участием человека, и обзор и уточнение аннотаций итеративно. VA улучшает эффективность выборки, уменьшает затраты и улучшает качество модели. Это позволяет экспертам в соответствующей области напрямую участвовать в аннотации, что способствует доверию и чувству собственности. Активное обучение в VA позволяет пользователям сосредоточиться на все более сложных примерах, уменьшая время аннотации и улучшая производительность модели. VA поддерживает непрерывную аннотацию, что позволяет быстро развертывать, отслеживать и исправлять пограничные случаи. Это позволяет пользователям итеративно улучшать модели без необходимости в помощи ученых-исследователей или внешних аннотаторов. Эксперименты показывают, что VA позволяет создавать видеоклассификаторы более высокого качества по сравнению с базовыми методами. VA позволяет эффективно аннотировать разнообразные задачи понимания видео. Это способствует сотрудничеству между экспертами в соответствующей области и инженерами по машинному обучению. Авторы предоставляют набор данных с 153 тыс. меток по 56 задачам, аннотированным с помощью VA, и выпускают код для репликации. VA решает проблемы традиционных методов обучения классификаторов, улучшая эффективность, качество и участие пользователей в аннотации видео. Это создает ощущение собственности и доверия к системе, облегчая итеративное улучшение и быстрое развертывание точных видеоклассификаторов.
favicon
netflixtechblog.com
Video annotator: building video classifiers using vision-language models and active learning