Bloggen diskuterer utviklingen av søketeknologier utover tekst, og integrerer bilder og videoer i søkefunksjoner gjennom multimodale forankringer. Tradisjonelle bedriftssøkemotorer ble designet for tekstbaserte søk, noe som begrenser evnen deres til å håndtere visuelt innhold. Ved å integrere naturlig språkbehandling (NLP) og multimodale forankringer, er det nå mulig å utføre semantisk, kryssmodal søking, slik at brukere kan søke etter bilder og videoer på samme måte som med tekst. Bloggen demonstrerer et system som kan utføre tekst-til-bilde-, tekst-til-video- og kombinert søk ved å bruke Google Cloud Storage for lagring av medier og BigQuery for indeksering. En multimodal forankringsmodell brukes til å generere forankringer for mediefiler, noe som muliggjør effektive likhetssøk. Arkitekturen støtter sømløse kryssmodale søkeopplevelser, noe som gjør innholdsoppdagelse mer intuitivt. Brukerens tekstinput konverteres til en forankring, og et vektorsøk utføres for å matche søket med de lagrede mediedataene. Til slutt presenteres resultatene for brukeren med de mest relevante bildene eller video-URI-ene og deres likhetsscore. Denne tilnærmingen forbedrer søkeopplevelsen og åpner opp nye muligheter for søk etter visuelt innhold.
cloud.google.com
A multimodal search solution using NLP, BigQuery and embeddings
Create attached notes ...