LLM選定戦争物語:パート4 - あなたの本番障害テストスイ... ノート
DZone.comのRSS

LLM選定戦争物語:パート4 - あなたの本番障害テストスイート

パート1~3では、LLMが失敗する理由とその失敗の分類方法について説明しました。ここからが難しい部分です。実際にそれらをテストすることです。理論的なベンチマークではなく、日曜日の午前2時に子供のサッカーの試合を楽しもうとしているときにあなたを悩ませるような、厄介で現実的なシナリオでテストします。 いいですか、私は自分が認めたくないほど何度もこれを失敗してきました。かつて、包括的なテストスイートだと思ったものに2週間を費やしましたが、本番稼働3日目にClaudeがコードレビューツールでSQLインジェクションの脆弱性を幻覚しました。テストスイートは、実際に本番で失敗することではなく、失敗するだろうと思ったことをテストしていたため、ゴミでした。