Сообщество RSS DEV
Follow
Посмертный анализ: Сбой Slack в 2026 году из-за неправильной настройки Circuit Breaker в Istio 1.22
12 марта 2026 года в Slack произошел масштабный сбой, продолжавшийся более двух часов и затронувший 18,2 миллиона пользователей. Основной причиной стала неправильно настроенная схема защиты в Istio 1.22, используемой сервисом chat-api. Неправильная конфигурация привела к удалению всех подов chat-api после единственной кратковременной ошибки подключения к базе данных. Это привело к сбою основных функций обмена сообщениями, включая отправку сообщений и обмен файлами. Хронология инцидента включала первоначальную ошибку, затем быструю эскалацию и, в конечном итоге, сбой сервиса. Устранение неполадок включало откат неисправной конфигурации Istio к стабильной версии. На ежемесячное соглашение об уровне обслуживания (SLA) Slack было оказано влияние, что привело к значительным кредитам для корпоративных клиентов. Чтобы предотвратить будущие инциденты, Slack внедрила новую проверку перед развертыванием, оповещения и расширенное тестирование. Они также опубликовали улучшенные руководства по устранению неполадок и приняли подход к поэтапному развертыванию для будущих изменений. Был проведен всесторонний обзор после инцидента, в ходе которого знаниями поделились все инженерные команды. Slack стремится улучшить практику работы с service mesh, чтобы свести к минимуму время простоя для всех пользователей.