В блоге обсуждается развитие технологий поиска за пределами текста с включением изображений и видео в возможности поиска с помощью многомодальных вложений. Традиционные корпоративные поисковые системы были разработаны для запросов на основе текста, что ограничивает их способность обрабатывать визуальный контент. Благодаря интеграции обработки естественного языка (NLP) и многомодальных вложений теперь можно выполнять семантический поиск в разных режимах, позволяя пользователям искать изображения и видео так же, как они делали бы это с текстом. В блоге показана система, которая может выполнять поиск с текстом в изображение, с текстом в видео и комбинированный поиск с использованием хранилища Google Cloud для хранения мультимедиа и BigQuery для индексирования. Для создания вложений файлов мультимедиа используется модель многомодального вложения, что позволяет эффективно выполнять поиск по схожести. Архитектура поддерживает беспрепятственный поиск в разных режимах, делая обнаружение контента более интуитивным. Входной текст пользователя преобразуется во вложение, а затем выполняется векторный поиск, чтобы сопоставить запрос с хранящимися данными мультимедиа. Наконец, пользователю показываются результаты с наиболее релевантными URI изображений или видео и их показателями схожести. Этот подход улучшает поисковый опыт, открывая новые возможности для поиска визуального контента.
cloud.google.com
A multimodal search solution using NLP, BigQuery and embeddings
Create attached notes ...