DZone.comのRSS
フォロー
稼働時間のためのエンジニアリング:オブザーバビリティ、テスト、そして盤石なバックエンドサービスへの道
背景
スマートフォンの単一のタップ操作は、バックグラウンドで多くのイベントをトリガーする可能性があります。API呼び出し、メッセージキュー経由のメッセージ送信、データベースへの書き込み、一時的な障害に対するリトライなど、これらすべてが成功、あるいはエラーメッセージの表示を返す前に行われます。ユーザーは、この複雑さを認識していません。彼らは、オートスケーリングポリシー、キャッシュヒット率、依存関係グラフについて知りません。彼らが知っているのは、配車が予約できたか、支払いが完了したか、または食品注文が確認されたか、という事実だけです。
そして、問題が発生した場合、その隠れた複雑さが、システムがどれだけスムーズに回復できるかを決定します。だからこそ、信頼性はもはやSREチームだけの責任ではいられません。それは共有の責任であり、すべてのバックエンドエンジニアの日々の意思決定に組み込まれるべきものです。システム設計の方法から、アラートの書き方、コードのデプロイ、インシデントの処理方法に至るまで、信頼性は「願って」存在するものではなく、「エンジニアリング」されるものです。