一种可扩展的健康语言模型评估框架

关注

一种可扩展的健康语言模型评估框架

大型语言模型（LLM）可以分析复杂的健康数据以生成个性化响应。评估这些 LLM 响应对于准确性和安全性至关重要，但目前的人工专家评估成本高昂且难以扩展。本文介绍了一种使用自适应精确布尔评分标准评估健康 LLM 的新框架。这些评分标准将复杂问题分解为细粒度的“是/否”标准，以提高一致性和效率。该框架在代谢健康领域进行了测试，并证明其评分者间信度显著高于传统的李克特量表。自适应精确布尔评分标准还将评估时间缩短了 50% 以上。与李克特量表相比，这种方法对响应质量的变化更敏感。使用零样本分类器自动进行评分标准筛选，在评估改进方面保持了相似的效果。当真实参与者数据被修改时，该框架能够可靠地检测到 LLM 响应质量的下降。所提出的方法为专业领域的 LLM 评估提供了一种可扩展且简化的方法。

A scalable framework for evaluating health language models research.google

RSS Hunter • 2025年8月25日