우아한형제들이 장애를 놓치지 않고 탐지하는 방법
2
AI 요약

이 글은 AI가 원문을 분석하여 핵심 내용을 요약한 것입니다.

우아한형제들이 장애를 놓치지 않고 탐지하는 방법

이 게시물은 배달의민족에서 장애를 더 빠르고 놓치지 않게 탐지하기 위해 SRE팀이 도입한 서비스 이상 탐지(Service Anomaly Detection) 시스템의 설계와 운영 결과를 설명합니다.

기존 모니터링의 한계와 접근 전환

전통적인 CPU/메모리 등 시스템 지표 기반 임계치 경보는 모든 지표를 빠짐없이 감시하기 어렵고, 모니터링 사각지대로 인해 장애를 놓칠 수 있음을 지적합니다.

요구사항과 탐지 기법

  • 실시간(또는 Near-Realtime) 탐지
  • 경보가 울린 이유를 설명할 수 있는 구조(원인 분석 용이성)
  • 경보 이후 대응 프로세스까지 제공
배달의민족 주문 패턴이 일정하다는 특성을 활용해 과거 데이터의

중앙값(Median)

으로 예측값을 만들고, 실제값과의 차이가 Warning/Critical 임계치를 연속으로 충족할 때 경보를 발생시키는 방식으로 설계했습니다.

경보 전파 및 대응 자동화

  • Slack으로 지표 현황과 긴급도를 포함한 경보 발송
  • Opsgenie로 지표별 On-Call 담당자 즉시 호출
  • 장애 전파와 장애 채널 생성 등 후속 프로세스 자동 수행

도입 성과와 향후 계획

경보 정밀도는 약 11배 향상, 장애 탐지율은 약 70% 향상, 장애 전파 시간은 약 74% 단축되었으며, 서비스팀별로 흩어져 있던 서비스 지표 모니터링을 통합하는 효과도 있었다고 공유합니다.
향후에는 발생한 장애의 원인을 더 빠르게 찾기 위해 AI 활용 방안을 구상한다고 밝힙니다.

연관 게시글