RSS Google KI-Blog
Folgen
Sprache-zu-Abruf (S2R): Ein neuer Ansatz für die Sprachsuche
Sprachbasierte Websuchen, obwohl verbreitet, weisen aufgrund des Kaskadenmodellierungsansatzes Genauigkeitsprobleme auf. Diese Methode wandelt Sprache zuerst in Text um, und jeder Fehler bei der Transkription kann zu irrelevanten Suchergebnissen führen. Zum Beispiel kann die Fehlinterpretation von "schreien" als "Bildschirm" in einer Anfrage zu einem Gemälde völlig falsche Informationen liefern. Um dies zu beheben, umgeht die Speech-to-Retrieval (S2R)-Technologie den Schritt der Texttranskription vollständig. S2R interpretiert gesprochene Anfragen direkt und ruft Informationen ab, indem es Sprache auf die Abrufabsicht abbildet. Diese architektonische Änderung zielt darauf ab, die Frage "Welche Informationen werden gesucht?" zu beantworten und nicht nur "Welche Wörter wurden gesagt?". Experimente zeigen eine signifikante Leistungslücke zwischen aktuellen Kaskadensystemen und theoretisch perfekter Transkription. Das S2R-Modell, das eine Dual-Encoder-Architektur verwendet, lernt, Audioanfragen und Dokumente in einem gemeinsamen Raum darzustellen. Dies ermöglicht es, die Absicht des Benutzers direkt aus dem Audio abzuleiten. Die Auswertung auf dem SVQ-Datensatz zeigt, dass S2R herkömmliche Kaskaden-ASR-Modelle signifikant übertrifft. Seine Leistung nähert sich eng dem theoretischen Maximum, das mit perfekter Spracherkennung erreichbar ist. Google hat nun S2R-gestützte Sprachsuche in mehreren Sprachen implementiert. Sie stellen auch den SVQ-Datensatz als Open Source zur Verfügung, um weitere Forschung in diesem Bereich zu fördern.