RSS 해커누
팔로우
운영 환경에서 음성 에이전트의 STT 평가 방법
음성 에이전트 개발자들은 TTFB(Time To First Byte)를 최적화하고 있지만, 이는 프로덕션 환경에서 가장 유용하지 않은 지표 중 하나입니다.
실제로 에이전트의 속도와 안정성을 결정하는 것은 TTFS(Time To Final Segment)입니다. 즉, 사용자가 말하기를 마치고 LLM에 안정적인 스크립트가 도착하기까지의 시간 간격입니다.
이 글에서는 음성 에이전트의 STT(Speech-to-Text)에 대한 가장 신뢰할 수 있는 공개 평가인 Pipecat 벤치마크를 분석하고, 의미론적 WER(Word Error Rate)이 이 사용 사례에서 표준 WER보다 우수한 이유를 설명하며, 정확도와 지연 시간이 분리될 수 없다는 주장을 펼칩니다. 더 빠른 오답은 여전히 오답입니다.