RSS 구글 AI 블로그
팔로우
사운드 로컬라이제이션으로 그룹 대화의 접근성을 높이기
모바일 장치의 음성 텍스트 변환 기능은 접근성, 번역, 메모 작성 및 모임 대본에 필수적인 요소가 되었지만 기존 앱은 그룹 대화에서 화자를 구별하는 데 어려움을 겪고 있습니다. 이러한 제한은 사용자에게 인지적 과부하를 일으켜 누가 무엇을 말하는지 따라가기가 어렵게 만듭니다. 기계 학습에 의존하는 현재 솔루션은 모바일 시나리오에서 설정하기 어렵습니다. SpeechCompass 접근 방식은 화자 분할 및 들어오는 소리의 실시간 위치 파악을 통해 모바일 자막을 향상시켜 그룹 대화를 위한 사용자 친화적인 스크립트를 제공합니다. SpeechCompass는 다중 마이크 접근 방식을 사용하여 계산 비용을 절감하고, 대기 시간을 줄이고, 개인 정보 보호를 강화합니다. 이 시스템은 정상적인 대화 소리에 대해 11°-22°의 평균 오류로 소리 방향을 정확하게 현지화할 수 있습니다. DER(Diarization Error Rate)은 4개의 마이크 구성이 3개의 마이크 설정보다 일관되게 성능이 우수함을 보여줍니다. 사용자 평가 및 피드백은 그룹 대화에 대한 방향 안내의 가치를 보여주며, 컬러 텍스트와 방향 화살표가 가장 선호되는 시각화 방법입니다. SpeechCompass 시스템은 교실 환경, 비즈니스 회의 및 사교 모임과 같은 수많은 실용적인 응용 프로그램을 가지고 있습니다. 향후 개발 방향에는 웨어러블 폼 팩터와의 통합, 향상된 노이즈 견고성, 일상적인 시나리오에서의 채택 및 동작을 이해하기 위한 종단 연구가 포함됩니다.