Speech-to-Retrieval (S2R) : Une nouvelle approche de la recherche vocale

Suivre

Speech-to-Retrieval (S2R) : Une nouvelle approche de la recherche vocale

La recherche web vocale, bien que courante, rencontre des problèmes de précision en raison de l'approche de modélisation en cascade. Cette méthode convertit d'abord la parole en texte, et toute erreur de transcription peut entraîner des résultats de recherche non pertinents. Par exemple, mal interpréter "scream" (cri) comme "screen" (écran) dans une requête concernant un tableau peut fournir des informations complètement erronées. Pour remédier à cela, la technologie Speech-to-Retrieval (S2R) contourne complètement l'étape de transcription textuelle. Le S2R interprète directement les requêtes vocales et récupère les informations en mappant la parole à l'intention de recherche. Ce changement architectural vise à répondre à la question "Quelle information est recherchée ?" plutôt qu'à "Quels mots ont été prononcés ?". Les expériences montrent un écart de performance significatif entre les systèmes en cascade actuels et une transcription théoriquement parfaite. Le modèle S2R, utilisant une architecture à double encodeur, apprend à représenter les requêtes audio et les documents dans un espace partagé. Cela lui permet d'inférer directement l'intention de l'utilisateur à partir de l'audio. L'évaluation sur le jeu de données SVQ démontre que le S2R surpasse significativement les modèles ASR en cascade traditionnels. Ses performances se rapprochent étroitement du maximum théorique réalisable avec une reconnaissance vocale parfaite. Google a désormais implémenté la recherche vocale basée sur le S2R dans plusieurs langues. Ils rendent également le jeu de données SVQ open-source pour encourager davantage la recherche dans ce domaine.

Speech-to-Retrieval (S2R): A new approach to voice search research.google

RSS Hunter • 6 oct. 2025