Надежное масштабируемое наблюдение
Основная проблема заключается в том, что системы наблюдаемости могут выходить из строя, когда выходит из строя инфраструктура, которую они отслеживают, создавая циклические зависимости. Airbnb, как и многие организации, столкнулась с этой проблемой, когда их конвейер метрик зависел от тех же систем, которые он наблюдал. Эту цепочку зависимостей необходимо было разорвать, чтобы обеспечить надежный мониторинг, особенно во время сбоев. Чтобы решить эту проблему, Airbnb изолировала вычисления, используя выделенные кластеры Kubernetes, управляемые командой Cloud. Они переосмыслили работу сети, построив собственный уровень входящего трафика Layer 7 на основе Envoy, чтобы обойти сервисную сетку для телеметрии, обеспечивая приоритезацию и изоляцию. Метрики имеют уникально большой объем, поэтому выделенный сетевой путь позволяет избежать перегрузок и потенциальных сбоев. Airbnb также внедрила мета-мониторинг, отслеживая сам стек наблюдаемости для выявления потенциальных проблем. Важной частью мета-мониторинга является использование механизма "Dead Man's Switch" для обнаружения сбоев в системе мониторинга. Этот общий подход создает надежную цепочку сигналов, которая защищает от скрытых сбоев в настройке наблюдаемости. Ключевым выводом является отношение к мониторингу как к производственной системе, обеспечивающее его надежность, превосходящую надежность наблюдаемых систем. Это имеет решающее значение для обеспечения оперативного реагирования на инциденты и поддержания доверия пользователей и бизнеса. Эти принципы применимы повсеместно и включают в себя изоляцию областей сбоев для надежной разработки системы.