RSS Vers les Sciences des Données - Medium

Une introduction aux VLM : l'avenir des modèles de vision par ordinateur

L'auteur, Roman Isachenko, membre de l'équipe de vision par ordinateur de Yandex, discute du développement d'un moteur de recherche d'images multimodal utilisant des modèles de langage visuel (VLM). Les VLM sont une nouvelle frontière dans la vision par ordinateur qui peuvent résoudre diverses tâches fondamentales de CV en mode zéro-shot et one-shot. L'auteur explique les principes de base et le processus d'entraînement pour développer un réseau neuronal multimodal pour la recherche d'images et explore les principes de conception, les défis et l'architecture qui rendent tout cela possible. Les VLM ont généralement trois composants principaux : un modèle de texte (LLM), un modèle d'image (CNN ou transformateur de vision), et un adaptateur qui agit comme médiateur entre le LLM et l'encodeur d'image. L'adaptateur est la partie la plus excitante et importante du modèle, car il facilite la communication entre le LLM et l'encodeur d'image. Il existe deux types d'adaptateurs : les adaptateurs basés sur des prompts et les adaptateurs basés sur l'attention croisée. L'auteur discute du processus d'entraînement des VLM, qui implique deux étapes : l'entraînement préalable et l'alignement. L'entraînement préalable implique de lier les modalités de texte et d'image ensemble et de charger des connaissances du monde dans le modèle. Il existe trois types de données utilisées dans l'entraînement préalable des VLM : l'entraînement préalable entrelacé, l'entraînement préalable en paires d'image-texte et l'entraînement préalable basé sur des instructions. L'auteur discute également des méthodes pour évaluer la qualité des VLM, qui incluent le calcul de métriques sur des benchmarks open-source et la comparaison des modèles à l'aide d'évaluations côte à côte (SBS). Le modèle de l'auteur est bilingue et peut répondre en anglais et en russe, ce qui permet d'utiliser des benchmarks open-source en anglais et des comparaisons SBS. L'auteur partage également l'expérience d'ajout de multimodalité à Neuro, un produit de recherche alimenté par l'IA, permettant aux utilisateurs de poser des questions en utilisant du texte et des images. L'architecture de pipeline de Neuro est discutée, et l'auteur explique comment le processus utilisait avant l'ajout de multimodalité. L'auteur conclut que les VLM sont un outil puissant pour développer des moteurs de recherche d'images multimodaux et que l'avenir des systèmes d'IA composés réside dans le développement des VLM. L'équipe de l'auteur a atteint une précision de 28% supérieure pour la recherche d'images multimodale en utilisant des VLM, et l'auteur pense que c'est juste le début du développement des VLM.
favicon
towardsdatascience.com
An Introduction to VLMs: The Future of Computer Vision Models
Create attached notes ...