在前三部分,我们讨论了大语言模型(LLM)为何会失败以及如何对这类失败进行分类。现在到了最难的部分:实际检测这些失败。不是通过理论基准测试,而是通过那些混乱且真实的场景——这些场景会在你周日晚上试图享受孩子足球赛时,在凌晨 2 点让你吃尽苦头。
说真的,我搞砸的次数多到我都不愿承认。我曾花了两周时间构建了一套自认为全面的测试套件,结果在上线第三天,Claude 就在我们的代码审查工具中幻觉出 SQL 注入漏洞。这套测试套件完全是垃圾,因为它测试的是我认为会失败的情况,而非在生产环境中真正会发生失败的情况。
dzone.com
The LLM Selection War Story: Part 4 - Your Production Failure Testing Suite
Create attached notes ...
