Un cadre évolutif pour évaluer... Note

Un cadre évolutif pour évaluer les modèles de langage de santé

Les modèles de langage de grande taille (LLMs) peuvent analyser des données de santé complexes pour générer des réponses personnalisées. Évaluer ces réponses LLM est crucial pour l'exactitude et la sécurité, mais l'évaluation actuelle par des experts humains est coûteuse et non scalable. Ce document présente un nouveau cadre pour évaluer les LLM de santé en utilisant des rubriques booléennes précises adaptatives. Ces rubriques décomposent les questions complexes en critères granulaires oui/non pour améliorer la cohérence et l'efficacité. Le cadre a été testé dans le domaine de la santé métabolique et a démontré une fiabilité inter-évaluateur significativement plus élevée que les échelles Likert traditionnelles. Les rubriques booléennes précises adaptatives ont également réduit le temps d'évaluation de plus de 50%. Cette méthode s'est avérée plus sensible aux variations de qualité de réponse par rapport aux échelles Likert. L'automatisation du processus de filtrage des rubriques avec un classificateur zero-shot a maintenu des améliorations d'évaluation similaires. Le cadre a détecté de manière fiable les baisses de qualité dans les réponses LLM lorsque des données de participants réels ont été modifiées. L'approche proposée offre une méthode scalable et rationalisée pour l'évaluation des LLM dans des domaines spécialisés.
CdXz5zHNQW_fzb8IapfxF.png