Uma solução de busca multimodal usando PNL, BigQuery e incorporações
O blog discute o avanço das tecnologias de busca além do texto, incorporando imagens e vídeos em recursos de busca por meio de incorporações multimodais. Os mecanismos de busca empresariais tradicionais foram concebidos para consultas baseadas em texto, limitando sua capacidade de manipular conteúdo visual. Por meio da integração de processamento de linguagem natural (PNL) e incorporações multimodais, agora é possível realizar buscas semânticas intermodais, permitindo que os usuários busquem imagens e vídeos como fariam com texto. O blog demonstra um sistema que pode executar buscas de texto para imagem, texto para vídeo e combinadas usando o Google Cloud Storage para armazenamento de mídia e o BigQuery para indexação. Um modelo de incorporação multimodal é empregado para gerar incorporações para arquivos de mídia, permitindo buscas de semelhança eficientes. A arquitetura oferece experiências de busca intermodal contínuas, tornando a descoberta de conteúdo mais intuitiva. A entrada de texto do usuário é convertida em uma incorporação, e uma busca vetorial é realizada para corresponder à consulta com os dados de mídia armazenados. Finalmente, os resultados são apresentados ao usuário com as URIs de imagem ou vídeo mais relevantes e suas pontuações de semelhança. Essa abordagem aprimora a experiência de busca, abrindo novas possibilidades para busca de conteúdo visual.