モニタリングを大規模かつ確実に ノート

モニタリングを大規模かつ確実に

中核的な問題は、監視対象のインフラストラクチャが障害を起こした際に、オブザーバビリティシステムも障害を起こす可能性があり、循環的な依存関係が生じることです。Airbnbは多くの組織と同様に、メトリクスパイプラインが監視対象と同じシステムに依存するというこの問題に直面しました。信頼性の高い監視、特に障害発生時の監視を確保するためには、この依存関係の連鎖を断ち切る必要がありました。これを解決するために、Airbnbはクラウドチームが管理する専用のKubernetesクラスタを使用してコンピューティングを分離しました。彼らはネットワーキングを再考し、テレメトリのためにサービスメッシュをバイパスするカスタムEnvoyベースのレイヤー7イングレスレイヤーを構築し、優先順位付けと分離を確保しました。メトリクスはユニークに大量であるため、専用のネットワークパスは輻輳や潜在的な障害を回避します。Airbnbはまた、オブザーバビリティスタック自体を監視して潜在的な問題を検出するメタ監視を実装しました。メタ監視の重要な部分は、監視システムの障害を検出するための「デッドマンズスイッチ」メカニズムの使用です。この全体的なアプローチは、オブザーバビリティ設定におけるサイレント障害から保護する堅牢なシグナルチェーンを作成します。重要なのは、監視を本番システムとして扱い、その信頼性が監視対象システムの信頼性を超えるようにすることです。これは、迅速なインシデント対応を可能にし、ユーザーとビジネスの信頼を維持するために不可欠です。これらの原則は普遍的に適用され、堅牢なシステム設計のために障害ドメインを分離することを含みます。
CdXz5zHNQW_IA1cJHBdof.jpeg