El autor, Roman Isachenko, miembro del equipo de Visión por Computadora en Yandex, discute el desarrollo de un motor de búsqueda de imágenes multimodal utilizando Modelos de Lenguaje Visual (MLV). Los MLV son un nuevo frente en la visión por computadora que pueden resolver varias tareas fundamentales relacionadas con la VC en modos zero-shot y one-shot. El autor explica los conceptos básicos y el proceso de entrenamiento para desarrollar una red neuronal multimodal para la búsqueda de imágenes y explora los principios de diseño, los desafíos y la arquitectura que lo hacen posible.
Los MLV suelen tener tres componentes principales: un modelo de texto (LLM), un modelo de imagen (CNN o Transformador de Visión) y un adaptador que actúa como mediador entre el LLM y el codificador de imágenes. El adaptador es la parte más emocionante y importante del modelo, ya que facilita la comunicación entre el LLM y el codificador de imágenes. Hay dos tipos de adaptadores: adaptadores basados en prompts y adaptadores basados en atención cruzada.
El autor discute el proceso de entrenamiento de los MLV, que implica dos etapas: pre-entrenamiento y alineación. El pre-entrenamiento implica vincular las modalidades de texto e imagen juntas y cargar conocimiento del mundo en el modelo. Hay tres tipos de datos utilizados en el pre-entrenamiento de MLV: pre-entrenamiento intercalado, pre-entrenamiento de pares de texto-imagen y pre-entrenamiento basado en instructivos.
El autor también discute los métodos para evaluar la calidad de los MLV, que incluyen calcular métricas en benchmarks de código abierto y comparar modelos usando evaluaciones lado a lado (EAL). El modelo del autor es bilingüe y puede responder en inglés y ruso, lo que permite el uso de benchmarks de código abierto en inglés y comparaciones EAL.
El autor también comparte la experiencia de agregar multimodalidad a Neuro, un producto de búsqueda impulsado por IA, permitiendo a los usuarios hacer preguntas usando texto y imágenes. La arquitectura del pipeline de Neuro se discute, y el autor explica cómo era el proceso antes de agregar multimodalidad.
El autor concluye que los MLV son una herramienta poderosa para desarrollar motores de búsqueda de imágenes multimodales y que el futuro de los sistemas de IA compuestos está en el desarrollo de MLV. El equipo del autor ha logrado un motor de búsqueda de imágenes multimodal 28% más preciso usando MLV, y el autor cree que esto es solo el comienzo del desarrollo de MLV.
towardsdatascience.com
An Introduction to VLMs: The Future of Computer Vision Models
Create attached notes ...
