Claude가 바뀌었을 때 모든 것이 바뀌었다: 프로덕... 노트
RSS VentureBeat

Claude가 바뀌었을 때 모든 것이 바뀌었다: 프로덕션 환경에서 AI의 영향 범위를 관리하는 방법

해당 시스템은 자연어 쿼리를 API 호출로 효과적으로 변환하여 분석가와 계정 관리자에게 다양한 출처의 데이터 조립을 간소화했습니다. 이 기능은 통합 백엔드에 API 호출을 디스패치하고, 응답을 형성하기 위한 LLM에서 생성된 JSON 쿼리를 적용하며, 이메일, 드라이브 문서, 브라우저 차트를 통해 결과를 전달함으로써 이를 달성했습니다. 2025년 중반까지 임시 데이터 검색의 표준 방법이 되어, 내부 및 외부 이해관계자를 위해 매달 수백 건의 보고서를 생성했습니다. 핵심 상호작용은 LLM과 시스템 간의 구조화된 JSON 객체 계약에 의존했습니다. 초기 모델 업그레이드는 Claude Sonnet 3.5에서 4.0으로, 원활하게 진행되어 LLM 안정성에 대한 안일함을 키웠습니다. 하지만 Sonnet 4.5 업그레이드는 두 가지 큰 문제를 일으켰습니다. 먼저, 모델이 설명 필드에 post_body 콘텐츠를 삽입하기 시작했고, 이로 인해 API 호출 필터 매개변수가 비어 광범위한 데이터 검색이나 500 오류가 발생했습니다. 둘째, Sonnet 4.5는 명확한 질문을 제기하기 시작했는데, 이는 인간의 상호작용이나 상태 관리 없이 직접 API 호출을 위해 설계된 시스템이었기에 명확한 경로가 없었습니다. 이러한 실패로 인해 Sonnet 4.0으로의 롤백이 필요했고, 4.5에 맞춰 적용된 새로운 API 통합으로 인해 복잡해졌습니다. 이번 사건은 LLM 기반 시스템이 전통적인 공학 규율을 거부한다는 점을 부각시켰습니다. 내부 부품이 개발자의 통제 하에 있지 않아 변경 시 예측 불가능한 '무한 폭발 반경'이 발생하기 때문입니다. 부검 결과 명확히 알려지지 않은 프롬프트가 드러났다; 이전 모델 버전들은 암묵적으로 추론된 제약 조건을 가지고 있었으며, Sonnet 4.5는 더 "도움이 되는" 이유로 이를 위반했습니다. 저자들은 프롬프트 대신 평가 스위트가 공식적인 시스템 명세로 사용되는 '평가 우선(evals-first)' 아키텍처를 제안합니다. 평가는 입력, 필요한 출력 속성, 그리고 모델 또는 프롬프트 변경을 검증하는 점수 함수로 구성됩니다. 예시 평가는 설명 필드에 직렬화된 페이로드 내용이 포함되어 있는지 확인하는 것입니다. 구축과 유지보수 비용이 많이 들지만, 평가는 입출력 행동을 조밀하게 샘플링하여 폭발 반경을 제한하는 게이트 역할을 합니다. 평가는 유용하지만, 만병통치약은 아닙니다; 이들은 지정된 실패 모드만 포착할 수 있고, LLM을 판사로 채점하여 자체 분산을 도입할 수 있습니다. 공학계는 여전히 자연어 및 CI/CD 시스템에서 확률적 시험 결과에 대한 평가 적용 기준을 갖추지 못하고 있습니다. 특히 에이전트가 점점 자율성을 갖추면서 시험을 통과하는 것과 생산 행동 예측 사이의 격차를 좁히는 것은 중요한 공학적 도전 과제입니다. 평가를 시스템의 진정한 사양으로 우선시하는 팀은 이 도전에 가장 잘 대응할 수 있습니다.
CdXz5zHNQW_oNfqHIhUqm.png