Le blog traite des progrès des technologies de recherche au-delà du texte, intégrant des images et des vidéos dans les capacités de recherche grâce à des plongements multimodaux. Les moteurs de recherche d'entreprise traditionnels étaient conçus pour les requêtes textuelles, ce qui limitait leur capacité à gérer le contenu visuel. En intégrant le traitement du langage naturel (TLN) et les plongements multimodaux, il est désormais possible d'effectuer des recherches sémantiques intermodales, permettant aux utilisateurs de rechercher des images et des vidéos comme ils le feraient avec du texte. Le blog présente un système capable d'effectuer des recherches texte-image, texte-vidéo et combinées en utilisant Google Cloud Storage pour le stockage des médias et BigQuery pour l'indexation. Un modèle d'intégration multimodale est utilisé pour générer des intégrations pour les fichiers multimédias, permettant des recherches de similarités efficaces. L'architecture prend en charge des expériences de recherche intermodale transparentes, rendant la découverte de contenu plus intuitive. L'entrée de texte de l'utilisateur est convertie en une intégration, et une recherche vectorielle est effectuée pour faire correspondre la requête avec les données multimédias stockées. Enfin, les résultats sont présentés à l'utilisateur avec les URI d'image ou de vidéo les plus pertinents et leurs scores de similarité. Cette approche améliore l'expérience de recherche, ouvrant de nouvelles possibilités pour la recherche de contenu visuel.
cloud.google.com
A multimodal search solution using NLP, BigQuery and embeddings
Create attached notes ...