Video Annotator (VA) - это фреймворк, который решает задачи в обучении видеоклассификаторов. Он использует модели зрения-языка и активное обучение для эффективной аннотации, позволяя экспертам в соответствующей области направлять процесс.
VA проходит через трехэтапный процесс: поиск начальных примеров с помощью поиска видео по тексту, активное обучение и уточнение аннотаций с помощью системы с участием человека, и обзор и уточнение аннотаций итеративно.
VA улучшает эффективность выборки, уменьшает затраты и улучшает качество модели. Это позволяет экспертам в соответствующей области напрямую участвовать в аннотации, что способствует доверию и чувству собственности.
Активное обучение в VA позволяет пользователям сосредоточиться на все более сложных примерах, уменьшая время аннотации и улучшая производительность модели.
VA поддерживает непрерывную аннотацию, что позволяет быстро развертывать, отслеживать и исправлять пограничные случаи. Это позволяет пользователям итеративно улучшать модели без необходимости в помощи ученых-исследователей или внешних аннотаторов.
Эксперименты показывают, что VA позволяет создавать видеоклассификаторы более высокого качества по сравнению с базовыми методами.
VA позволяет эффективно аннотировать разнообразные задачи понимания видео. Это способствует сотрудничеству между экспертами в соответствующей области и инженерами по машинному обучению.
Авторы предоставляют набор данных с 153 тыс. меток по 56 задачам, аннотированным с помощью VA, и выпускают код для репликации.
VA решает проблемы традиционных методов обучения классификаторов, улучшая эффективность, качество и участие пользователей в аннотации видео.
Это создает ощущение собственности и доверия к системе, облегчая итеративное улучшение и быстрое развертывание точных видеоклассификаторов.
netflixtechblog.com
Video annotator: building video classifiers using vision-language models and active learning
Create attached notes ...
