RSS DEV 커뮤니티
팔로우
사후 분석: Istio 1.22 회로 차단기 오설정으로 인한 2026년 Slack 장애
Slack은 2026년 3월 12일, 2시간 이상 지속된 광범위한 장애를 경험했으며, 이는 1,820만 명의 사용자에게 영향을 미쳤습니다. 근본 원인은 chat-api 서비스에서 사용되는 Istio 1.22의 잘못 구성된 회로 차단기였습니다. 잘못된 구성으로 인해 단일의 일시적인 데이터베이스 연결 오류 후 모든 chat-api pod가 제거되었습니다. 이로 인해 메시지 전송 및 파일 공유를 포함한 핵심 메시징 기능이 실패했습니다. 사고 타임라인은 초기 오류, 급격한 확산, 그리고 최종 서비스 실패를 포함했습니다. 복구 조치는 잘못된 Istio 구성을 안정적인 버전으로 롤백하는 것을 포함했습니다. Slack의 월간 가동 시간 SLA가 영향을 받았으며, 엔터프라이즈 고객에게 상당한 크레딧이 제공되었습니다. 향후 사고를 방지하기 위해 Slack은 새로운 배포 전 검증, 경고 및 강화된 테스트를 구현했습니다. 또한 개선된 문제 해결 runbook을 게시하고 향후 변경 사항에 대한 카나리 배포 접근 방식을 채택했습니다. 포괄적인 사고 후 검토가 수행되었으며, 모든 엔지니어링 팀에 걸쳐 학습 내용을 공유했습니다. Slack은 모든 사용자의 다운타임을 최소화하기 위해 서비스 메시 관행을 개선하기 위해 노력하고 있습니다.