Ein skalierbarer Rahmen zur Bewertung von Gesundheits-Sprachmodellen

Folgen

Ein skalierbarer Rahmen zur Bewertung von Gesundheits-Sprachmodellen

Große Sprachmodelle (LLMs) können komplexe Gesundheitsdaten analysieren, um personalisierte Antworten zu generieren. Die Bewertung dieser LLM-Antworten ist entscheidend für Genauigkeit und Sicherheit, aber die aktuelle Bewertung durch menschliche Experten ist kostspielig und nicht skalierbar. Dieses Papier stellt einen neuen Rahmen für die Bewertung von Gesundheits-LLMs mithilfe von adaptiven präzisen booleschen Rubriken vor. Diese Rubriken zerlegen komplexe Fragen in granulare Ja/Nein-Kriterien, um Konsistenz und Effizienz zu verbessern. Der Rahmen wurde im Bereich der metabolischen Gesundheit getestet und zeigte eine signifikant höhere Interrater-Reliabilität als herkömmliche Likert-Skalen. Adaptive präzise boolesche Rubriken reduzierten zudem die Bewertungszeit um über 50 %. Diese Methode erwies sich im Vergleich zu Likert-Skalen als empfindlicher für Schwankungen in der Antwortqualität. Die Automatisierung des Rubrikenfilterungsprozesses mit einem Zero-Shot-Klassifikator führte zu ähnlichen Verbesserungen bei der Bewertung. Der Rahmen erkannte zuverlässig Qualitätsabfälle in den LLM-Antworten, wenn reale Teilnehmerdaten verändert wurden. Der vorgeschlagene Ansatz bietet eine skalierbare und optimierte Methode für die LLM-Bewertung in spezialisierten Domänen.

A scalable framework for evaluating health language models research.google

RSS Hunter • 25. Aug. 2025