RSS Google 开发者博客 关注 别再“凭感觉”测试你的大型语言模型了,是时候进行真正的评估了。 Stax 是一款实验性的开发者工具,它通过简化 LLM 评估生命周期,让用户能够严格测试其 AI 堆栈,并通过人工标注和可扩展的“LLM 作为裁判”的自动评分器做出数据驱动的决策,从而解决了“氛围测试” LLM 不足的问题。 Stop “vibe testing” your LLMs. It's time for real evals. developers.googleblog.com