Der Blog diskutiert die Entwicklung von Suchtechnologien über Text hinaus und bezieht Bilder und Videos durch modale Einbettungen in die Suchfunktionen ein. Traditionelle Suchmaschinen für Unternehmen wurden für textbasierte Abfragen entwickelt, was ihre Fähigkeit einschränkte, visuelle Inhalte zu verarbeiten. Durch die Integration von Verarbeitung natürlicher Sprache (NLP) und multimodaler Einbettungen ist es jetzt möglich, semantische Suchen durchzuführen, sodass Benutzer wie mit Text nach Bildern und Videos suchen können. Der Blog stellt ein System vor, das Text-zu-Bild-, Text-zu-Video- und kombinierte Suchen durchführen kann, indem Google Cloud Storage für die Medienspeicherung und BigQuery für die Indexierung verwendet werden. Ein modales Einbettungsmodell wird verwendet, um Einbettungen für Mediendateien zu generieren und so effiziente Ähnlichkeitssuchen zu ermöglichen. Die Architektur unterstützt nahtlose modale Sucherfahrungen und macht das Entdecken von Inhalten intuitiver. Die Texteingabe des Benutzers wird in eine Einbettung umgewandelt, und es wird eine Vektorsuche durchgeführt, um die Abfrage mit den gespeicherten Mediendaten abzugleichen. Schließlich werden dem Benutzer die Ergebnisse mit den relevantesten Bild- oder Video-URIs und ihren Ähnlichkeitswerten präsentiert. Dieser Ansatz verbessert das Sucherlebnis und eröffnet neue Möglichkeiten für die Suche nach visuellen Inhalten.
cloud.google.com
A multimodal search solution using NLP, BigQuery and embeddings
Create attached notes ...