대규모에서 안정적으로 모니터링 노트

대규모에서 안정적으로 모니터링

핵심 문제는 관찰 가능성 시스템이 모니터링하는 인프라가 실패할 때 함께 실패할 수 있어 순환 종속성이 발생한다는 것입니다. Airbnb는 많은 조직과 마찬가지로 메트릭 파이프라인이 관찰하는 시스템과 동일한 시스템에 의존하는 문제를 겪었습니다. 특히 장애 발생 시 안정적인 모니터링을 보장하기 위해 이 종속성 체인을 끊어야 했습니다. 이를 해결하기 위해 Airbnb는 Cloud 팀이 관리하는 전용 Kubernetes 클러스터를 사용하여 컴퓨팅을 격리했습니다. 네트워킹을 재고하여 맞춤형 Envoy 기반 Layer 7 인그레스 레이어를 구축하여 텔레메트리를 위한 서비스 메쉬를 우회하고 우선순위 지정 및 격리를 보장했습니다. 메트릭은 고유하게 높은 볼륨을 가지므로 전용 네트워크 경로는 혼잡 및 잠재적 중단을 방지합니다. Airbnb는 또한 관찰 가능성 스택 자체를 모니터링하여 잠재적인 문제를 감지하는 메타 모니터링을 구현했습니다. 메타 모니터링의 중요한 부분은 모니터링 시스템의 실패를 감지하기 위한 "Dead Man's Switch" 메커니즘의 사용입니다. 이 전반적인 접근 방식은 관찰 가능성 설정의 침묵하는 실패로부터 보호하는 강력한 신호 체인을 만듭니다. 핵심은 모니터링을 프로덕션 시스템으로 취급하여 관찰하는 시스템보다 안정성이 뛰어나도록 보장하는 것입니다. 이는 신속한 사고 대응을 가능하게 하고 사용자 및 비즈니스 신뢰를 유지하는 데 중요합니다. 이러한 원칙은 보편적으로 적용되며 강력한 시스템 설계를 위해 실패 도메인을 격리하는 것을 포함합니다.
CdXz5zHNQW_IA1cJHBdof.jpeg