Ermöglichen von zugänglicheren Gruppenkonversationen durch Schalllokalisation

Folgen

Ermöglichen von zugänglicheren Gruppenkonversationen durch Schalllokalisation

Sprache-zu-Text-Funktionen auf mobilen Geräten sind für die Barrierefreiheit, Übersetzung, Notizen und Besprechungsprotokolle unerlässlich geworden, aber bestehende Apps haben Schwierigkeiten, zwischen Sprechern in Gruppengesprächen zu unterscheiden. Diese Einschränkung führt zu einer kognitiven Überlastung der Nutzer, so dass es schwierig ist zu verfolgen, wer was sagt. Die aktuellen Lösungen, die auf maschinellem Lernen basieren, sind in mobilen Szenarien nur schwer einzurichten. Der SpeechCompass-Ansatz verbessert die mobile Untertitelung durch Sprecherdiarisierung und Echtzeit-Lokalisierung von eingehendem Ton und bietet benutzerfreundliche Transkripte für Gruppengespräche. SpeechCompass verwendet einen Ansatz mit mehreren Mikrofonen, der die Rechenkosten senkt, die Latenz reduziert und den Schutz der Privatsphäre verbessert. Das System ist in der Lage, die Schallrichtung mit einem durchschnittlichen Fehler von 11°-22° für normale Gesprächslautstärke genau zu lokalisieren. Die Diarisierungsfehlerrate (Diarization Error Rate, DER) zeigt, dass die Konfiguration mit vier Mikrofonen die Konfiguration mit drei Mikrofonen durchweg übertrifft. Die Bewertung und das Feedback der Benutzer zeigen den Wert der Richtungsführung für Gruppengespräche, wobei farbiger Text und Richtungspfeile die am meisten bevorzugten Visualisierungsmethoden sind. Das SpeechCompass-System bietet zahlreiche praktische Anwendungen, z. B. im Klassenzimmer, bei Geschäftstreffen und gesellschaftlichen Zusammenkünften. Zu den zukünftigen Entwicklungsrichtungen gehören die Integration mit tragbaren Formfaktoren, eine verbesserte Geräuschrobustheit und Längsschnittstudien, um die Akzeptanz und das Verhalten in alltäglichen Szenarien zu verstehen.

Making group conversations more accessible with sound localization research.google

RSS Hunter • 1. Juli 2025