ローマン・イサチェンコ氏は、Yandexのコンピュータビジョンチームのメンバーであり、視覚言語モデル(VLM)を使用したマルチモーダル画像検索エンジンの開発について論じています。VLMは、コンピュータビジョンの新しいフロンティアであり、ゼロショットモードやワンショットモードでさまざまな基本的なコンピュータビジョン関連タスクを解決できます。著者は、マルチモーダル画像検索用のニューラルネットワークの基本とトレーニングプロセスを説明し、設計原則、課題、そしてそれを可能にするアーキテクチャを探求しています。
VLMは、通常、3つの主要コンポーネントで構成されています。テキストモデル(LLM)、画像モデル(CNNまたはビジョントランスフォーマー)、およびLLMと画像エンコーダーの間の仲介役として機能するアダプターです。アダプターは、LLMと画像エンコーダーの間のコミュニケーションを容易にするため、モデルの中で最も興味深く重要な部分です。アダプターには、2つのタイプがあります。プロンプトベースのアダプターとクロスアテンションベースのアダプターです。
著者は、VLMのトレーニングプロセスについて論じています。これには、2つのステージがあります。事前トレーニングとアライメントです。事前トレーニングには、テキストと画像モダリティをリンクし、世界の知識をモデルにロードすることが含まれます。事前トレーニングに使用されるデータには、3つのタイプがあります。インターリーブ事前トレーニング、画像テキストペア事前トレーニング、インストラクションベースの事前トレーニングです。
著者は、VLMの品質を評価する方法についても論じています。これには、オープンソースベンチマークでメトリクスを計算し、サイドバイサイド(SBS)評価を使用してモデルを比較することが含まれます。著者のモデルはバイリンガルであり、英語とロシア語の両方で応答できるため、英語のオープンソースベンチマークとSBS比較を使用できます。
著者は、NeuroというAIパワードの検索製品にマルチモーダリティを追加する経験を共有しています。これにより、ユーザーはテキストと画像を使用して質問を出すことができます。Neuroのパイプラインアーキテクチャについて論じ、著者は、マルチモーダリティを追加する前のプロセスがどのように見えたかを説明しています。
著者は、VLMはマルチモーダル画像検索エンジンの開発に強力なツールであると結論付け、複合AIシステムの将来はVLMの開発にあると信じています。著者のチームは、VLMを使用して28%より正確なマルチモーダル画像検索エンジンを達成し、著者は、これがVLMの開発の始まりに過ぎないと信じています。
towardsdatascience.com
An Introduction to VLMs: The Future of Computer Vision Models
