RSS Google Developers Blog フォロー 「LLMの「雰囲気テスト」はやめましょう。本格的な評価の時期です。」 Staxは、実験的な開発者ツールであり、「雰囲気テスト」というLLMの不十分な性質を、LLM評価ライフサイクルを合理化することで解決します。これにより、ユーザーはAIスタックを厳密にテストし、人間によるラベリングと、スケーラブルなLLM-as-a-judge自動評価ツールを通じて、データに基づいた意思決定を行うことができます。 Stop “vibe testing” your LLMs. It's time for real evals. developers.googleblog.com