
117
AI 요약
이 글은 AI가 원문을 분석하여 핵심 내용을 요약한 것입니다.
전국 3,500대 POS 실시간 모니터링 구축기
이 게시물은 올리브영의 전국 3,500대 POS 및 셀프계산대 장비에 Datadog을 도입하여 로그 수집과 모니터링 체계를 개선한 사례를 다룹니다.문제 상황과 해결 방향
- 기존 장애 인식과 대응이 느리고 비효율적이었다
- 오프라인 매장 환경과 폐쇄망 구조로 인한 네트워크 불안정 문제
- Datadog 선택 이유: 확장성, 통합성, 대시보드 구성 능력
기술적 도전과 구현
- 3,500대 POS에 Agent 설치 및 자동화 배포
- 폐쇄망과 Public 망 간 프록시 서버 구축으로 보안 유지하며 실시간 데이터 전송 구현
- 비표준 로그를 JSON 포맷으로 표준화 및 선별 수집
- Agent 리소스 최적화 및 점진적 전국 확산 전략 적용
성과 및 운영 패러다임 변화
- 장애 탐지 시간 76% 단축(4분 30초 → 59초)
- 사전 대응 건수 월 0건에서 3건 이상으로 증가
- Slack 알람 연동으로 선제적 문제 인지 가능
- 실시간 대시보드를 통한 부서 간 원활한 협업 체계 마련
이 사례는 리테일 환경에서 실시간 모니터링 도입과 운영 방식을 혁신하는 모범 사례를 제시합니다.