RSS DZone.com
Suivre
Évaluation des assistants vocaux basés sur les LLM : un guide au-delà des métriques traditionnelles
Les assistants vocaux sont passés de simples systèmes basés sur des règles à des agents conversationnels avancés alimentés par de grands modèles linguistiques (LLM). Les premières versions des assistants vocaux ne pouvaient gérer que des tâches spécifiques avec des commandes prédéfinies. En revanche, les assistants modernes alimentés par des LLM peuvent désormais engager des conversations longues et ouvertes, suivre des instructions complexes et effectuer un raisonnement en plusieurs étapes. Ces capacités améliorées posent de nouveaux défis d'évaluation. Les métriques traditionnelles telles que la précision de la classification des intentions, la précision/rappel du remplissage des emplacements et les taux d'achèvement des objectifs ne peuvent plus capturer la qualité globale d'un assistant vocal.
Les réponses de l'assistant peuvent sembler fluides et plausibles, même lorsqu'elles contiennent des erreurs factuelles ou du contenu dangereux. Par exemple, un assistant LLM pourrait identifier correctement la demande d'un utilisateur de « trouver des restaurants italiens » (intention) et extraire l'emplacement « centre-ville » (emplacement), mais répondre ensuite avec le nom d'un restaurant qui n'existe même pas. Les benchmarks traditionnels considéreraient la tâche d'intention/emplacement comme réussie, sans tenir compte de l'erreur factuelle. Par conséquent, de nouvelles métriques et techniques sont nécessaires pour évaluer la factualité, la sécurité, la capacité de raisonnement, le suivi des instructions et l'expérience utilisateur.