"LLM-as-Judge"是一种方法,其中一个语言模型根据指定标准评估另一个模型的输出。这为响应提供了自动化的质量门禁,因为像 HTTP 状态码这样的标准生产指标不足以检测幻觉等问题。人工审查无法扩展以应对大量请求。裁判模型接收输出和指令,然后返回分数或类别,其功能类似于分类器而非生成器。研究表明,LLM 裁判与人类评分的一致性约为 80%,与人与人之间的评分一致性相当。需要评估的关键指标包括:忠实度、答案相关性和上下文相关性(针对 RAG 系统),以及正确性、完整性、毒性和幻觉(针对生成任务)。代理管道则需要工具使用正确性和任务完成度等指标。有效的裁判提示应具体明确,采用思维链推理,并要求输出结构化 JSON。实现方式包括直接 API 调用、使用 DeepEval 等框架,或利用 Langfuse 等可观测性平台。在 CI/CD 流程中,DeepEval 可用于执行提示回归测试。在生产环境中,可在交付前通过运行时门禁评估响应(但这会产生额外成本),或采用异步、基于样本的监控来跟踪质量趋势。潜在陷阱包括位置偏差、冗长性偏差、自我增强偏差、评估调用的成本,以及裁判模型自身可能产生的幻觉。建议使用的裁判模型能力至少不低于生成模型,并将裁判调用的温度参数设为零。对于初创企业,使用 DeepEval 进行部署前测试,结合 Langfuse 进行生产监控,可提供一套完整的解决方案。
dev.to
LLM-as-Judge: Automated Quality Gate for LLM Outputs in Production
Create attached notes ...
