RSS DZone.com
Подписаться
Оценка голосовых помощников на базе больших языковых моделей: руководство за пределами традиционных метрик
Голосовые помощники эволюционировали от простых, основанных на правилах систем до продвинутых разговорных агентов, управляемых большими языковыми моделями (LLM). Ранние версии голосовых помощников могли выполнять только конкретные задачи с заранее определенными командами. В отличие от них, современные помощники на базе LLM теперь могут вести длительные и открытые беседы, следовать сложным инструкциям и выполнять многошаговые рассуждения. Эти улучшенные возможности создают новые проблемы при оценке. Традиционные метрики, такие как точность классификации намерений, точность/полнота заполнения слотов и процент выполнения задач, больше не могут отражать общее качество голосового помощника.
Ответы помощника могут звучать бегло и правдоподобно, даже если они содержат фактические ошибки или небезопасный контент. Например, помощник на базе LLM может правильно определить запрос пользователя "найти итальянские рестораны" (намерение) и извлечь местоположение "в центре города" (слот), но затем ответить названием ресторана, которого даже не существует. Традиционные тесты отметят задачу определения намерения/слота как успешную, не учитывая фактическую ошибку. Следовательно, необходимы новые метрики и методы для оценки фактической точности, безопасности, способности к рассуждению, следования инструкциям и пользовательского опыта.