RSS на пути к науке о данных - Medium

Введение в VLM: Будущее моделей компьютерного зрения

Автор, Роман Исаченко, член команды Computer Vision в Яндексе, обсуждает разработку мультимодального поисковика изображений с использованием визуальных языковых моделей (VLM). VLM — это новый рубеж в компьютерном зрении, который может решать различные фундаментальные задачи, связанные с CV, в режимах «нулевой выстрел» и «один выстрел». Автор объясняет основы и процесс обучения для разработки мультимодальной нейронной сети для поиска изображений, а также исследует принципы проектирования, проблемы и архитектуру, которые делают все это возможным. VLM обычно состоят из трех основных компонентов: текстовой модели (LLM), модели изображения (CNN или Vision Transformer) и адаптера, который выступает в качестве посредника между LLM и кодировщиком изображений. Адаптер является самой интересной и важной частью модели, так как он облегчает связь между LLM и кодировщиком изображений. Существует два типа адаптеров: адаптеры на основе подсказок и адаптеры, основанные на перекрестном внимании. Автор рассматривает процесс обучения VLM, который включает в себя два этапа: предварительную подготовку и выравнивание. Предварительное обучение включает в себя связывание текстовых и графических модальностей вместе и загрузку знаний о мире в модель. Существует три типа данных, используемых в предварительном обучении VLM: предварительное обучение с чередованием, предварительное обучение в парах изображение-текст и предварительное обучение на основе инструкций. Автор также рассматривает методы оценки качества VLM, которые включают в себя вычисление метрик на бенчмарках с открытым исходным кодом и сравнение моделей с использованием параллельных оценок (SBS). Авторская модель является двуязычной и может отвечать как на английском, так и на русском языках, что позволяет использовать английские бенчмарки с открытым исходным кодом и сравнения SBS. Автор также делится опытом добавления мультимодальности в поисковый продукт на основе искусственного интеллекта Neuro, позволяющий пользователям задавать вопросы с помощью текста и изображений. Обсуждается конвейерная архитектура Neuro, и автор объясняет, как выглядел процесс до добавления мультимодальности. Автор приходит к выводу, что VLM являются мощным инструментом для разработки мультимодальных поисковых систем изображений и что будущее сложных систем искусственного интеллекта связано с развитием VLM. Авторский коллектив добился на 28% более точного мультимодального поисковика изображений с использованием VLM, и автор считает, что это только начало развития VLM.
favicon
towardsdatascience.com
An Introduction to VLMs: The Future of Computer Vision Models
Create attached notes ...