DevOps는 이메일 알림을 사용하여 온콜(on-call) 담당자에게 적극적으로 알리고, 무인 시스템 모니터링을 수행하여 신속한 사고 대응을 보장하고 서비스 수준 협약(SLA)을 충족합니다. 이메일 알림이 작동하려면 시스템은 익스포터, Prometheus 스크래핑, Grafana 알림 규칙, 그리고 작동하는 알림 전달 파이프라인이 필요하며, 실패는 종종 전달 계층에서 발생합니다. Grafana 서버에서 SMTP를 구성하려면 이메일 호스트, 사용자 자격 증명(Gmail에서 앱 비밀번호 필요), 발신자 정보를 설정해야 합니다. 그런 다음 Grafana UI에서 연락 지점과 특정 수신자에게 알림을 라우팅하는 알림 정책을 설정하여 알림을 구성합니다. 알림은 높은 CPU 임계값과 같은 규칙을 생성하고, 이메일이 전달되는지 확인하기 위해 문제를 시뮬레이션하여 트리거됩니다. DevOps는 알림 이메일을 읽고 문제를 신속하게 이해하고, 레이블을 사용하여 영향을 받는 시스템을 식별하고, 심각도를 평가하고, 필요한 초기 조치를 결정합니다. 모니터링 실패를 모니터링하고, 시간 창과 컨텍스트를 사용하여 노이즈가 많은 알림을 줄이고, 레이블을 포함하고, 알림 시스템을 정기적으로 테스트하는 것이 모범 사례입니다. Prometheus는 시스템 메트릭을 수집하기 위해 노드 익스포터를 필요로 하며, CPU, 메모리, 디스크 및 네트워크 사용량에 대한 데이터를 제공하며, 이는 효과적인 모니터링에 중요합니다. 랩에서는 Prometheus만으로는 이 핵심 시스템 데이터를 제공할 수 없음을 보여주면서 노드 익스포터의 필요성을 입증했습니다. 마지막 랩에서는 DaemonSet을 사용하여 KIND Kubernetes 클러스터를 모니터링하기 위해 EC2 인스턴스에 Prometheus를 설정하는 작업을 포함했습니다.
dev.to
DevOps Monitoring & Alerting — Real-World Lab (Prometheus + Grafana)
Create attached notes ...
