
서비스의 건강을 수치화 할 수 있을까? — SLI/SLO
서비스의 건강을 수치로 보기 위해 SLI와 SLO를 정의하고 운영하는 방법을 소개했습니다. 29CM 사례를 통해 지표 설계, 모니터링, 지속 개선 체계를 설명했습니다.
#SRE#모니터링
84005분

서비스의 건강을 수치로 보기 위해 SLI와 SLO를 정의하고 운영하는 방법을 소개했습니다. 29CM 사례를 통해 지표 설계, 모니터링, 지속 개선 체계를 설명했습니다.


올리브영이 재고, 주문, WMS, 배송, 발주 시스템을 단계적으로 고도화한 과정을 소개했습니다. 실시간 연동과 내재화로 고객 경험과 운영 효율을 함께 개선했습니다.


올리브영 물류 시스템의 전반적 구성과 개선 과정을 정리한 글입니다. 실시간 재고, OMS, WMS, 배송최적화, 자동발주로 고객 경험과 운영 효율을 높였습니다.


Datadog을 POS 환경에 적용해 전국 3,500대 장비의 로그와 장애를 실시간으로 모니터링하도록 구축했습니다. 장애 탐지 시간은 4분 30초에서 59초로 줄어들고, 사전 대응 체계도 마련했습니다.

매장 도메인을 온·오프라인 대고객 서비스로 확장한 과정과 API 분리 전략을 소개했습니다. 또한 ECS, TeamCity, Datadog 기반의 배포·모니터링 구성까지 정리했습니다.

장애 대응의 목표를 서비스 정상화에 두고, 에스컬레이션과 기록, 종료 공유, 포스트모템까지의 절차를 체계화했습니다. FRT 기준 티어링과 역할 분담, 커뮤니케이션 중심 대응 원칙도 함께 제시했습니다.