该博客讨论了搜索技术超越文本的进步,通过多模式嵌入将图像和视频纳入搜索功能。传统的企业搜索引擎是为基于文本的查询设计的,这限制了它们处理视觉内容的能力。通过整合自然语言处理 (NLP) 和多模态嵌入,现在可以执行跨模式语义搜索,让用户可以像使用文本一样搜索图像和视频。该博客演示了一个系统,该系统可以通过使用 Google Cloud Storage 存储媒体,通过 BigQuery 进行索引,执行文本到图像、文本到视频和组合搜索。多模态嵌入模型用于生成媒体文件的嵌入,从而实现高效的相似性搜索。该架构支持无缝的跨模式搜索体验,让内容发现更直观。用户的文本输入会转换为嵌入,然后执行一个向量搜索,将查询与已存储的媒体数据匹配。最后,向用户展示结果,其中包括最相关的图像或视频 URI 及其相似性得分。这种方法可以增强搜索体验,为搜索视觉内容解锁新的可能性。
cloud.google.com
A multimodal search solution using NLP, BigQuery and embeddings
Create attached notes ...