2026 年 3 月 12 日,Slack 发生了一次广泛的服务中断,持续时间超过两小时,影响了 1820 万用户。根本原因是聊天 API 服务所使用的 Istio 1.22 中配置错误的断路器。该错误配置导致在出现一次瞬态数据库连接错误后,所有聊天 API 的 Pod 被驱逐。这导致核心消息功能失效,包括发送消息和文件共享。事件时间线包括初始错误、迅速升级并最终导致服务故障。修复措施是将有问题的 Istio 配置回滚到稳定版本。此次事件影响了 Slack 的月度正常运行时间服务等级协议(SLA),导致向企业客户提供大量信用额度。为防止未来发生类似事件,Slack 实施了新的部署前验证、警报和增强的测试流程。他们还发布了改进的故障排查运行手册,并在未来的变更中采用了金丝雀发布方法。Slack 对所有工程团队进行了全面的事后审查,分享了经验教训。Slack 致力于改进服务网格实践,以最大限度地减少所有用户的服务中断时间。
dev.to
Postmortem: The 2026 Slack Outage Due to Istio 1.22 Circuit Breaker Misconfiguration
Create attached notes ...
