RSS Блог Google AI
Подписаться
Улучшение доступности групповых разговоров с помощью локализации звука
Возможности преобразования речи в текст на мобильных устройствах стали необходимы для обеспечения специальных возможностей, перевода, ведения заметок и стенограмм совещаний, но существующие приложения с трудом различают выступающих в групповых беседах. Это ограничение создает когнитивную перегрузку для пользователей, затрудняя понимание того, кто что говорит. Текущие решения, основанные на машинном обучении, трудно настроить в мобильных сценариях. Подход SpeechCompass улучшает работу с субтитрами на мобильных устройствах за счет диаризации говорящего и локализации входящего звука в режиме реального времени, обеспечивая удобные для пользователя расшифровки групповых разговоров. SpeechCompass использует подход с несколькими микрофонами, что снижает вычислительные затраты, уменьшает задержку и улучшает сохранение конфиденциальности. Система может точно локализовать направление звука со средней погрешностью 11°-22° для нормальной громкости разговора. Коэффициент ошибок диаризации (DER) показывает, что конфигурация с четырьмя микрофонами постоянно превосходит конфигурацию с тремя микрофонами. Оценка и отзывы пользователей демонстрируют ценность направления для групповых бесед, при этом цветной текст и стрелки направления являются наиболее предпочтительными методами визуализации. Система SpeechCompass имеет множество практических применений, таких как в классе, на деловых встречах и общественных мероприятиях. Будущие направления развития включают интеграцию с носимыми форм-факторами, повышенную устойчивость к шуму и лонгитюдные исследования для понимания внедрения и поведения в повседневных сценариях.