Claudeが変わったとき、すべてが変わった:本番環境におけ... ノート
RSS VentureBeat

Claudeが変わったとき、すべてが変わった:本番環境におけるAIの爆発半径の管理

このシステムは自然言語クエリをAPIコールに効果的に翻訳し、アナリストやアカウントマネージャーに対して様々なソースからのデータ組み立てを効率化しました。これは、APIコールを統合バックエンドにディスパッチし、LLMで生成されたJSONクエリを適用して応答を形成し、メール、Driveドキュメント、ブラウザチャートを通じて結果を届けることで実現しました。2025年半ばまでに、これは臨時のデータ取得の標準手法となり、内部および外部の関係者向けに毎月数百件のレポートを生成しています。 コアなインタラクションは、LLMとシステム間の構造化されたJSONオブジェクト契約に依存していました。Claude Sonnet 3.5から4.0への初期モデルアップグレードはシームレスで、LLMの安定性に対する慢心を助長しました。しかし、Sonnet 4.5のアップグレードは2つの大きな問題を引き起こしました。まず、モデルはpost_bodyコンテンツを記述フィールドに埋め込み始め、API呼び出しのフィルターパラメータが空になり、広範なデータ取得や500エラーを引き起こしました。次に、Sonnet 4.5は明確化のための質問を投げかけ始めました。これは、人間の操作や状態管理を伴わずに直接API呼び出しを用とうよう設計されたシステムには確立された経路がなかったためです。 これらの失敗によりSonnet 4.0へのロールバックが必要となり、4.5に準じた新しいAPI統合が複雑化しました。この事件は、LLM支援システムが従来の工学的規律に反していることを浮き彫りにしています。内部コンポーネントは開発者の管理下にないため、変更時に予測不可能な「無限の爆風半径」が存在します。検死の結果、あまり明示されていないプロンプトが明らかになった。以前のモデルバージョンでは暗黙のうちに制約が推定されており、Sonnet 4.5はより「役立つ」ため違反していました。 著者らは「評価優先」アーキテクチャを提案しており、プロンプトではなく評価スイートが正式なシステム仕様として機能します。評価は入力、必要な出力プロパティ、モデルやプロンプトの変更を検証するためのスコアリング関数で構成されています。例として評価では、記述フィールドにシリアル化されたペイロード内容が含まれているかどうかを確認します。構築と維持にはコストがかかりますが、評価はゲートとして機能し、入出力振る舞いを密にサンプリングすることで爆風半径を制限します。 評価は有用性があるものの、万能薬ではありません。彼らは指定された失敗モードのみを捉え、LLMをジャッジとして得点することで独自の分散を導入できます。工学コミュニティは、自然言語や確率的テスト結果のためのCI/CDシステムにおける評価カバレッジの基準をいまだに持っていません。特にエージェントがより自律性を持つようになる中で、スモークテストを通過することと生産行動の予測の間のギャップを埋めることは、重要な工学的課題です。評価をシステムの真の仕様として優先するチームは、この課題に最も適任です。
CdXz5zHNQW_oNfqHIhUqm.png