Речь в поиск (S2R): Новый подход к голосовому поиску

Голосовой веб-поиск, хотя и распространен, сталкивается с проблемами точности из-за подхода каскадного моделирования. Этот метод сначала преобразует речь в текст, и любые ошибки в транскрипции могут привести к нерелевантным результатам поиска. Например, неправильное толкование слова "scream" (кричать) как "screen" (экран) в запросе о картине может дать совершенно неверную информацию. Для решения этой проблемы технология Speech-to-Retrieval (S2R) полностью обходит этап транскрипции текста. S2R напрямую интерпретирует устные запросы и извлекает информацию, сопоставляя речь с намерением поиска. Этот архитектурный сдвиг направлен на ответ на вопрос "Какая информация ищется?", а не просто "Какие слова были сказаны?". Эксперименты показывают значительный разрыв в производительности между текущими каскадными системами и теоретически идеальной транскрипцией. Модель S2R, использующая архитектуру с двойным кодировщиком, учится представлять аудиозапросы и документы в общем пространстве. Это позволяет ей напрямую определять намерение пользователя по аудио. Оценка на наборе данных SVQ демонстрирует, что S2R значительно превосходит традиционные каскадные модели ASR. Его производительность приближается к теоретическому максимуму, достижимому при идеальном распознавании речи. Google теперь внедрил голосовой поиск на основе S2R на нескольких языках. Они также открывают набор данных SVQ для поощрения дальнейших исследований в этой области.

Speech-to-Retrieval (S2R): A new approach to voice search research.google

RSS Hunter • 6 окт. 2025 г.