RSS Richtung Data Science - Medium

Einleitung in VLMs: Die Zukunft der Computer-Vision-Modelle

Der Autor, Roman Isachenko, ein Mitglied des Computer-Vision-Teams bei Yandex, diskutiert die Entwicklung eines multimodalen Bildsuchmaschinen mit Hilfe von Visuellen Sprachmodellen (VSMs). VSMs sind ein neues Gebiet im Computer Vision, das verschiedene grundlegende CV-bezogene Aufgaben im Zero-Shot- und One-Shot-Modus lösen kann. Der Autor erläutert die Grundlagen und den Trainingsprozess für die Entwicklung eines multimodalen neuronalen Netzwerks für Bildsuchen und untersucht die Designprinzipien, Herausforderungen und Architekturen, die dies alles möglich machen. VSMs haben typischerweise drei Hauptkomponenten: ein Textmodell (LLM), ein Bildmodell (CNN oder Vision Transformer) und ein Adapter, der als Vermittler zwischen dem LLM und dem Bild-Encoder fungiert. Der Adapter ist der aufregendste und wichtigste Teil des Modells, da er die Kommunikation zwischen dem LLM und dem Bild-Encoder ermöglicht. Es gibt zwei Arten von Adaptern: prompt-basierte Adapter und cross-attention-basierte Adapter. Der Autor diskutiert den Trainingsprozess von VSMs, der in zwei Stufen besteht: Pre-Training und Alignment. Das Pre-Training beinhaltet das Verbinden der Text- und Bildmodalitäten miteinander und das Laden von Weltwissen in das Modell. Es gibt drei Arten von Daten, die beim Pre-Training von VSMs verwendet werden: interleaved Pre-Training, Bild-Text-Paare Pre-Training und instruct-basiertes Pre-Training. Der Autor diskutiert auch die Methoden zur Bewertung der Qualität von VSMs, darunter die Berechnung von Metriken auf Open-Source-Benchmarks und den Vergleich von Modellen mittels Side-by-Side (SBS)-Evaluierungen. Das Modell des Autors ist zweisprachig und kann auf Englisch und Russisch antworten, was den Einsatz englischsprachiger Open-Source-Benchmarks und SBS-Vergleiche ermöglicht. Der Autor teilt auch Erfahrungen mit der Hinzufügung von Multimodalität zu Neuro, einem kI-gestützten Suchprodukt, das Benutzern ermöglicht, Fragen mit Text und Bildern zu stellen. Die Pipeline-Architektur von Neuro wird diskutiert, und der Autor erklärt, wie der Prozess vor der Hinzufügung von Multimodalität aussah. Der Autor schließt mit der Aussage, dass VSMs ein leistungsfähiges Werkzeug für die Entwicklung multimodaler Bildsuchmaschinen sind und dass die Zukunft der kombinierten KI-Systeme in der Entwicklung von VSMs liegt. Das Team des Autors hat ein 28% genaueres multimodales Bildsuchsystem mit VSMs entwickelt, und der Autor glaubt, dass dies nur der Anfang der Entwicklung von VSMs ist.
favicon
towardsdatascience.com
An Introduction to VLMs: The Future of Computer Vision Models