Un marco escalable para evalua... Nota

Un marco escalable para evaluar modelos de lenguaje de salud

Los modelos de lenguaje grande (LLMs) pueden analizar datos de salud complejos para generar respuestas personalizadas. Evaluar estas respuestas de LLM es crucial para la precisión y seguridad, pero la evaluación de expertos humanos actuales es costosa y no escalable. Este documento introduce un nuevo marco para evaluar LLMs de salud utilizando rubricas booleanas precisas adaptativas. Estas rubricas descomponen preguntas complejas en criterios granulares de sí/no para mejorar la consistencia y eficiencia. El marco se probó en salud metabólica y demostró una fiabilidad interevaluador significativamente mayor que las escalas Likert tradicionales. Las rubricas booleanas precisas adaptativas también redujeron el tiempo de evaluación en más del 50%. Este método demostró ser más sensible a las variaciones en la calidad de respuesta en comparación con las escalas Likert. Automatizar el proceso de filtrado de rubricas con un clasificador de zero-shot mantuvo mejoras similares en la evaluación. El marco detectó de manera confiable caídas en la calidad de las respuestas de LLM cuando se alteraron los datos de participantes reales. El enfoque propuesto ofrece un método escalable y simplificado para la evaluación de LLM en dominios especializados.
CdXz5zHNQW_fzb8IapfxF.png