El blog analiza el avance de las tecnologías de búsqueda más allá del texto, incorporando imágenes y videos en las funciones de búsqueda mediante incrustaciones multimodales. Los motores de búsqueda empresariales tradicionales se diseñaron para consultas basadas en texto, lo que limita su capacidad para manejar contenido visual. Al integrar el procesamiento del lenguaje natural (PNL) y las incrustaciones multimodales, ahora es posible realizar búsquedas semánticas intermodales, lo que permite a los usuarios buscar imágenes y videos como lo harían con el texto. El blog muestra un sistema que puede realizar búsquedas de texto a imagen, de texto a video y combinadas mediante Google Cloud Storage para almacenamiento multimedia y BigQuery para indexación. Se emplea un modelo de incrustación multimodal para generar incrustaciones para archivos multimedia, lo que permite búsquedas de similitud eficientes. La arquitectura admite experiencias de búsqueda intermodal fluidas, lo que hace que el descubrimiento de contenido sea más intuitivo. La entrada de texto del usuario se convierte en una incrustación y se realiza una búsqueda de vectores para hacer coincidir la consulta con los datos multimedia almacenados. Finalmente, se presentan los resultados al usuario con los URI de imagen o video más relevantes y sus puntuaciones de similitud. Este enfoque mejora la experiencia de búsqueda y desbloquea nuevas posibilidades para buscar contenido visual.
cloud.google.com
A multimodal search solution using NLP, BigQuery and embeddings
Create attached notes ...