Современные глобальные цифровые платформы питаются от сотен микросервисов, которые работают за внешним интерфейсом, с которым взаимодействуют пользователи. Эти сервисы должны работать в масштабе в сочетании друг с другом. Следовательно, конечный пользовательский опыт определяется совокупной доступностью этих систем, спроектированных таким образом, чтобы конечный сервис продолжал работать даже при сбоях в работе подсистем.
Если говорить о таких стандартах доступности, как "пять девяток", то системы, работающие 99,999% времени, допускают лишь около 5 минут простоя в год (из 525 600 минут). Для достижения этих целей инженерные команды должны уделять пристальное внимание вопросам доступности, задержек, производительности, эффективности, управления изменениями, мониторинга, развертывания, планирования мощностей и аварийного реагирования. Высокая доступность имеет решающее значение, поскольку цифровая экономика опирается на эти услуги, и любой простой напрямую означает потерю доходов для малого и среднего бизнеса. Чтобы эффективно координировать работу, службы создают общую операционную структуру, включающую SLI, SLO, бюджеты на устранение ошибок, руководящие принципы SEV и протоколы эскалации.
dzone.com
Principles for Operating Large-Scale Global Production Systems with AI Innovation Across the Stack
