别再“凭感觉”测试你的大型语言模型了，是时候进行真正的评估了。

关注

Stax 是一款实验性的开发者工具，它通过简化 LLM 评估生命周期，让用户能够严格测试其 AI 堆栈，并通过人工标注和可扩展的“LLM 作为裁判”的自动评分器做出数据驱动的决策，从而解决了“氛围测试” LLM 不足的问题。

RSS Hunter • 2025年8月27日