RSS HackerNoon
Подписаться
Как оценить систему распознавания речи для голосовых агентов в производстве
Разработчики голосовых агентов оптимизируют TTFB — время до первого байта — но это один из наименее полезных показателей в производстве.
Что на самом деле определяет, насколько быстрым и надежным кажется ваш агент, это TTFS (время до финального сегмента): промежуток времени между тем, как пользователь заканчивает говорить, и появлением стабильной расшифровки в вашей LLM.
Эта статья разбирает бенчмарк Pipecat — в настоящее время наиболее авторитетную публичную оценку для STT в голосовых агентах — объясняет семантическую WER и почему она превосходит стандартную частоту ошибок по словам для этого случая, а также доказывает, что точность и задержка неразделимы. Более быстрый неверный ответ все равно остается неверным ответом.