ポストモーテム:Istio 1.22 サーキットブレーカーの... ノート

ポストモーテム:Istio 1.22 サーキットブレーカーの設定ミスによる2026年のSlack障害

Slackは2026年3月12日、2時間以上にわたる広範な障害を経験し、1820万人のユーザーに影響が出ました。根本原因は、chat-apiサービスで使用されていたIstio 1.22における設定ミスのあるサーキットブレーカーでした。この誤った設定により、単一の一時的なデータベース接続エラーの後、すべてのchat-apiポッドが強制終了されました。これにより、メッセージ送信やファイル共有を含むコアメッセージング機能が失敗しました。インシデントのタイムラインは、最初のエラー、その後の急速なエスカレーション、そして最終的なサービス障害を含んでいました。復旧作業は、誤ったIstio設定を安定したバージョンにロールバックすることを含みました。Slackの月間アップタイムSLAは影響を受け、エンタープライズ顧客には多額のクレジットが発生しました。将来のインシデントを防ぐため、Slackは新しいデプロイ前検証、アラート、および強化されたテストを導入しました。また、改善されたトラブルシューティングランブックを公開し、将来の変更にはカナリアリリースアプローチを採用しました。包括的なインシデント後レビューが実施され、すべてのエンジニアリングチーム間で学びが共有されました。Slackは、すべてのユーザーのダウンタイムを最小限に抑えるために、サービスメッシュの実践を改善することにコミットしています。