Una soluzione di ricerca multimodale che utilizza NLP, BigQuery e incorporamenti

Il blog illustra i progressi delle tecnologie di ricerca oltre il testo, incorporando immagini e video nelle funzionalità di ricerca tramite incorporamenti multimodali. I tradizionali motori di ricerca aziendali sono stati progettati per query basate su testo, limitando la loro capacità di gestire contenuti visivi. Integrando l'elaborazione del linguaggio naturale (NLP) e gli incorporamenti multimodali, è ora possibile eseguire ricerche semantiche multimodali, consentendo agli utenti di cercare immagini e video come farebbero con il testo. Il blog dimostra un sistema che può eseguire ricerche testo-immagine, testo-video e combinate utilizzando Google Cloud Storage per l'archiviazione multimediale e BigQuery per l'indicizzazione. Viene utilizzato un modello di incorporamento multimodale per generare incorporamenti per file multimediali, consentendo ricerche di similarità efficienti. L'architettura supporta esperienze di ricerca multimodale senza interruzioni, rendendo la scoperta dei contenuti più intuitiva. L'input di testo dell'utente viene convertito in un incorporamento e viene eseguita una ricerca vettoriale per abbinare la query ai dati multimediali memorizzati. Infine, i risultati vengono presentati all'utente con gli URI immagine o video più pertinenti e i relativi punteggi di similarità. Questo approccio migliora l'esperienza di ricerca, aprendo nuove possibilità per la ricerca di contenuti visivi.

cloud.google.com

A multimodal search solution using NLP, BigQuery and embeddings

TheNote.app (macOS, iOS and Android apps)

2024-09-12

Create attached notes ...