サウンド・ローカリゼーションでグループ会話をよりアクセシブルにする

フォロー

サウンド・ローカリゼーションでグループ会話をよりアクセシブルにする

モバイルデバイスでの音声テキスト変換機能は、アクセシビリティ、翻訳、メモ取り、会議の議事録作成に不可欠になっていますが、既存のアプリでは、グループ会話の話者を区別するのに苦労しています。この制限により、ユーザーは認知的過負荷になり、誰が何を言っているのかを追うことが難しくなります。機械学習に依存している現在のソリューションは、モバイルシナリオで設定するのが困難です。SpeechCompassのアプローチは、話者のダイアライゼーションと着信音のリアルタイム位置特定によりモバイルキャプションを強化し、グループ会話にユーザーフレンドリーなトランスクリプトを提供します。SpeechCompassはマルチマイクアプローチを採用しているため、計算コストの低減、遅延の低減、プライバシー保護の強化が実現します。このシステムは、通常の会話のラウドネスに対して平均11°〜22°の誤差で音の方向を正確に特定できます。ダイアライゼーションエラー率(DER)は、4マイク構成が3マイク構成よりも一貫して優れていることを示しています。ユーザーの評価とフィードバックは、グループ会話の方向性ガイダンスの価値を示しており、色付きのテキストと方向矢印が最も好ましい視覚化方法です。SpeechCompassシステムは、教室、ビジネスミーティング、懇親会など、数多くの実用的なアプリケーションを備えています。今後の開発の方向性には、ウェアラブル・フォーム・ファクターとの統合、ノイズ耐性の向上、日常的なシナリオでの採用と行動を理解するための縦断的研究などがあります。

Making group conversations more accessible with sound localization research.google

RSS Hunter • 2025年7月1日