RSS DZone.com
Подписаться
Инженерия для бесперебойной работы: Наблюдаемость, тестирование и путь к надежным бэкенд-сервисам
Предыстория
Одиночное касание по экрану мобильного устройства может инициировать множество событий «за кулисами»: вызовы API к микросервисам, отправку сообщений/событий через очереди, запись в базы данных и повторные попытки при временных сбоях — и все это до того, как вернется ответ об успехе… или всплывет сообщение об ошибке. Пользователь не видит этой сложности. Он не знает о вашей политике автоматического масштабирования, коэффициенте попадания в кэш или графах зависимостей. Он знает только, была ли вызвана машина, прошла ли оплата или подтвержден ли заказ еды.
И когда что-то идет не так, именно эта скрытая сложность определяет, насколько грамотно ваша система восстановится. Вот почему надежность больше не может быть просто задачей команды SRE. Это общая ответственность, которая должна быть встроена в повседневные решения каждого бэкенд-инженера. От того, как мы проектируем системы, до того, как мы пишем оповещения, выпускаем код и реагируем на инциденты, надежность создается инженерным путем — а не просто желается.