우아한형제들이 장애를 놓치지 않고 탐지하는 방법
19
AI 요약
이 글은 AI가 원문을 분석하여 핵심 내용을 요약한 것입니다.
이 게시물은 우아한형제들이 서비스 이상 탐지 시스템을 도입해 장애를 놓치지 않고 신속히 탐지하고 대응한 경험을 공유
핵심 요약
- 서비스 지표(실시간 로그인, 주문 수, 결제 성공률) 중심의 이상 탐지로 사용자 영향 직접 모니터링
- 중앙값 기반 예측과 임계값·연속 임계 도달 횟수로 오탐 감소와 실시간 탐지 균형
- Slack·Opsgenie 연동과 자동 장애 전파로 대응 속도 및 프로세스 표준화
- 도입 결과: 경보 정밀도 약 11배, 장애 탐지율 약 70% 향상, 전파시간 약 74% 단축