Rendre les conversations de gr... Note

Rendre les conversations de groupe plus accessibles grâce à la localisation sonore

Les capacités de conversion de la parole en texte sur les appareils mobiles sont devenues essentielles pour l’accessibilité, la traduction, la prise de notes et les transcriptions de réunions, mais les applications existantes ont du mal à distinguer les intervenants dans les conversations de groupe. Cette limitation crée une surcharge cognitive pour les utilisateurs, ce qui rend difficile de suivre qui dit quoi. Les solutions actuelles reposant sur le machine learning sont difficiles à mettre en place dans des scénarios mobiles. L’approche SpeechCompass améliore le sous-titrage mobile avec la diarisation du locuteur et la localisation en temps réel du son entrant, fournissant des transcriptions conviviales pour les conversations de groupe. SpeechCompass utilise une approche multi-microphones, ce qui réduit les coûts de calcul, réduit la latence et améliore la préservation de la vie privée. Le système peut localiser avec précision la direction du son avec une erreur moyenne de 11° à 22° pour une intensité sonore de conversation normale. Le taux d’erreur de diarisation (DER) montre que la configuration à quatre microphones surpasse systématiquement la configuration à trois microphones. L’évaluation et les commentaires des utilisateurs démontrent la valeur du guidage directionnel pour les conversations de groupe, le texte coloré et les flèches directionnelles étant les méthodes de visualisation les plus préférées. Le système SpeechCompass a de nombreuses applications pratiques, telles que dans les salles de classe, les réunions d’affaires et les rassemblements sociaux. Les orientations de développement futures comprennent l’intégration avec des facteurs de forme portables, une robustesse accrue au bruit et des études longitudinales pour comprendre l’adoption et le comportement dans des scénarios quotidiens.
CdXz5zHNQW_T2Ojq2cOgo.jpeg