Bloggen beskriver, hvordan søgeteknologier går ud over tekst og indarbejder billeder og videoer i søgefunktioner gennem multimodale indlejringer. Traditionelle virksomhedssøgemaskiner var designet til tekstbaserede søgninger, hvilket begrænsede deres evne til at håndtere visuelt indhold. Ved at integrere naturlig sprogbehandling (NLP) og multimodale indlejringer er det nu muligt at udføre tværmodale semantiske søgninger, så brugerne kan søge efter billeder og videoer, som de ville med tekst. Bloggen demonstrerer et system, der kan udføre tekst-til-billede, tekst-til-video og kombinerede søgninger ved at bruge Google Cloud Storage til medielagring og BigQuery til indeksering. Der anvendes en multimodal indlejringsmodel til at generere indlejringer for mediefiler, hvilket gør det muligt at udføre effektive søgninger efter lighed. Arkitekturen understøtter problemfri tværmodale søgeoplevelser, hvilket gør indholdsregistrering mere intuitiv. Brugerens tekstinput konverteres til en indlejring, og der udføres en vektorsøgning for at matche søgningen med de lagrede mediedata. Endelig præsenteres resultater for brugeren med de mest relevante billed- eller video-URI'er og deres lighedsscore. Denne tilgang forbedrer søgeoplevelsen og åbner op for nye muligheder for at søge efter visuelt indhold.
cloud.google.com
A multimodal search solution using NLP, BigQuery and embeddings
Create attached notes ...