RSS Netflix TechBlog - Medium

ビデオアノテーター:ビジョン言語モデルとアクティブラーニングを使用したビデオ分類器の構築

Video Annotator (VA) は、ビデオ分類器のトレーニングに関する課題に対処するフレームワークです。VA は、ビジョン言語モデルとアクティブラーニングを使用し、ドメインエキスパートがプロセスを導くことができます。 VA は、3つのステップで構成されています:テキスト・トゥ・ビデオ・サーチを使用して初期の例を探し、ヒューマン・イン・ザ・ループ・システムを使用してアクティブラーニングとアノテーションの改善を行い、反復的にアノテーションをレビューし改善します。 VA は、サンプル効率を向上させ、コストを削減し、モデル品質を改善します。ドメインエキスパートがアノテーションプロセスに直接関与することを可能にし、信頼と所有権を育む。 VA のアクティブラーニングは、ユーザーが徐々に困難な例に焦点を当てることを許し、アノテーション時間を短縮し、モデル性能を向上させます。 VA は、継続的なアノテーションをサポートし、急速なデプロイメント、監視、およびエッジケースの訂正を可能にします。VA は、ユーザーがデータ・サイエンティストやサードパーティのアノテーターや頼らずにモデルを改善し反復することを可能にします。 実験結果は、VA が従来の分類器トレーニング技術と比較して、より高品質のビデオ分類器を生成することを示しています。 VA は、多様なビデオ理解タスクの効率的なアノテーションを可能にし、ドメインエキスパートと機械学習エンジニアの協力関係を促進します。 著者は、VA を使用してアノテーションされた 56 タスクの 153k ラベルが含まれるデータセットを提供し、レプリケーションのためのコードもリリースします。 VA は、従来の分類器トレーニング技術の課題に対処し、ビデオアノテーションの効率、品質、ユーザー関与を向上させます。VA は、システムに対する信頼と所有権を育むことで、正確なビデオ分類器の急速なデプロイメントと反復的な改善を促進します。
favicon
netflixtechblog.com
Video annotator: building video classifiers using vision-language models and active learning
Create attached notes ...