AI/ML 워크로드를 위한 SRE 오류 예산 구축: 실용적인 프레임워크

자주 발생하는 문제 하나를 말씀드리겠습니다. 추천 시스템이 제대로 작동하고, 결과를 밀리초 단위로 내놓으며, 모든 인프라 SLA를 충족합니다. 대시보드 세상에서는 모든 것이 장밋빛으로 보입니다. 하지만 모델이 몇 주 동안 아무런 쓸모가 없었기 때문에 참여율이 40%나 급감했습니다. 전통적인 오류 예산 측면에서는? 당신은 완벽합니다. 하지만 제품 팀의 관점에서는? 시스템이 망가진 겁니다.