Blogissa keskustellaan hakuteknologioiden kehittymisestä tekstin ulkopuolelle ja kuvien ja videoiden sisällyttämisestä hakukykyihin monimodaalisten upotusten avulla. Perinteiset yrityshakusovellukset on suunniteltu tekstipohjaisiin hakuihin, mikä rajoittaa niiden kykyä käsitellä visuaalista sisältöä. Integroimalla luonnollisen kielen käsittelyn (NLP) ja monimodaaliset upotukset voidaan nyt suorittaa ristimodaalisia semanttisia hakuja, mikä mahdollistaa käyttäjien etsiä kuvia ja videoita samalla tavalla kuin tekstiä. Blogi esittelee järjestelmän, joka voi suorittaa teksti-kuva-, teksti-video- ja yhdistettyjä hakuja käyttämällä Google Cloud Storage -tallennustilaa medialle ja BigQueryä indeksointiin. Monimodaalista upotusmallia käytetään upotusten luomiseksi mediatiedostoille, mikä mahdollistaa tehokkaat samankaltaisuushaut. Arkkitehtuuri tukee saumattomia ristimodaalisia hakukokemuksia, mikä tekee sisällön löytämisestä intuitiivisempaa. Käyttäjän tekstisyöte muunnetaan upotukseksi ja kysely vastaautetaan suorittamalla vektorhaku tallennettujen media-aineistojen kanssa. Lopuksi käyttäjälle esitetään tulokset, jotka sisältävät osuvimmat kuva- tai video-URI:t ja niiden samankaltaisuuspistemäärät. Tämä lähestymistapa parantaa hakukokemusta ja avaa uusia mahdollisuuksia visuaalisen sisällön etsimiselle.
cloud.google.com
A multimodal search solution using NLP, BigQuery and embeddings
Create attached notes ...