RSS DZone.com
Folgen
Bewertung von LLM-gestützten Sprachassistenten: Ein Leitfaden jenseits traditioneller Metriken
Sprachassistenten haben sich von einfachen, regelbasierten Systemen zu fortschrittlichen Konversationsagenten entwickelt, die von großen Sprachmodellen (LLMs) angetrieben werden. Frühe Versionen von Sprachassistenten konnten nur spezifische Aufgaben mit vordefinierten Befehlen ausführen. Im Gegensatz dazu können moderne, LLM-gestützte Assistenten jetzt lange und offene Gespräche führen, komplexe Anweisungen befolgen und mehrstufige Schlussfolgerungen ziehen. Diese verbesserten Fähigkeiten bringen neue Herausforderungen bei der Bewertung mit sich. Traditionelle Metriken wie die Genauigkeit der Intent-Klassifizierung, die Genauigkeit/der Recall beim Slot-Filling und die Erfolgsquoten von Zielen können die Gesamtqualität eines Sprachassistenten nicht mehr erfassen.
Assistentenantworten können flüssig und plausibel klingen, auch wenn sie sachliche Fehler oder unsichere Inhalte enthalten. Beispielsweise könnte ein LLM-Assistent die Anfrage eines Benutzers, "italienische Restaurants zu finden" (Intent), korrekt identifizieren und den Ort "Innenstadt" (Slot) extrahieren, aber dann mit einem Restaurantnamen antworten, der gar nicht existiert. Traditionelle Benchmarks würden die Intent/Slot-Aufgabe als erfolgreich einstufen, ohne den sachlichen Fehler zu berücksichtigen. Daher sind neue Metriken und Techniken erforderlich, um Faktentreue, Sicherheit, Schlussfolgerungsfähigkeit, Befolgung von Anweisungen und Benutzererfahrung zu bewerten.