RSS Google 개발자 블로그 팔로우 LLM의 '바이브 테스트'는 이제 그만. 실제 평가를 할 때입니다. "Stax는 실험적인 개발자 도구로, LLM 평가 라이프사이클을 간소화하여 "바이브 테스트"의 부족한 측면을 해결합니다. 이를 통해 사용자는 AI 스택을 엄격하게 테스트하고, 사람의 라벨링과 확장 가능한 LLM-as-a-judge 자동 평가자를 통해 데이터 기반 의사 결정을 내릴 수 있습니다." Stop “vibe testing” your LLMs. It's time for real evals. developers.googleblog.com