De blog bespreekt de voortgang van zoektechnologieën voorbij tekst, waarbij afbeeldingen en video's in zoekfuncties worden opgenomen via multimodale insluitsels. Traditionele bedrijfszoekmachines waren ontworpen voor op tekst gebaseerde zoekopdrachten, wat hun mogelijkheden om visuele inhoud te verwerken beperkte. Door natuurlijke taalverwerking (NLP) en multimodale insluitsels te integreren is het nu mogelijk om crossmodale semantische zoekopdrachten uit te voeren, waardoor gebruikers naar afbeeldingen en video's kunnen zoeken zoals ze dat met tekst zouden doen. De blog demonstreert een systeem dat tekst-naar-afbeelding, tekst-naar-video en gecombineerde zoekopdrachten kan uitvoeren door gebruik te maken van Google Cloud Storage voor mediaopslag en BigQuery voor indexering. Een multimodaal insluitingsmodel wordt gebruikt om insluitsels te genereren voor mediabestanden, zodat er efficiënt gezocht kan worden naar overeenkomsten. De architectuur ondersteunt naadloze crossmodale zoekervaringen, waardoor het zoeken naar content intuïtiever wordt. De tekstinput van de gebruiker wordt omgezet in een insluitsel en er wordt een vectorzoekopdracht uitgevoerd om de zoekopdracht te matchen met de opgeslagen mediagegevens. Tot slot worden resultaten aan de gebruiker gepresenteerd met de meest relevante URI's van afbeeldingen of video's en hun overeenkomstscores. Deze benadering verbetert de zoekervaring en ontsluit nieuwe mogelijkheden voor het zoeken naar visuele inhoud.
cloud.google.com
A multimodal search solution using NLP, BigQuery and embeddings
Create attached notes ...