RSS Airbnb 技术博客 - Medium

大规模可靠监控

Follow
核心问题在于,可观测性系统在它所监控的基础设施发生故障时也可能失效,从而形成循环依赖。Airbnb 与许多组织一样,曾面临此类问题:其指标管道依赖于它所观测的同一套系统。必须打破这一依赖链,以确保监控的可靠性,尤其是在发生中断时。为解决这一问题,Airbnb 通过由云团队管理的专用 Kubernetes 集群实现了计算隔离。他们重新设计了网络架构,构建了一个基于 Envoy 的自定义第 7 层入口层,以绕过服务网格来传输遥测数据,从而确保优先级和隔离性。由于指标具有极高的数据量,专用网络路径可避免拥塞和潜在的中断。Airbnb 还实施了元监控(meta-monitoring),即对可观测性栈本身进行监控,以检测潜在问题。元监控的关键组成部分是采用“死信开关”(Dead Man's Switch)机制来检测监控系统自身的故障。这一整体方法构建了一个稳健的信号链,可防止可观测性设置中出现静默故障。关键启示在于将监控视为生产系统,确保其可靠性超越其所观测的系统。这对于实现及时的故障响应以及维持用户和业务信心至关重要。这些原则具有普适性,涉及为构建稳健的系统设计而隔离故障域。
favicon
medium.com
Monitoring reliably at scale
文章配图: 大规模可靠监控
Create attached notes ...