
에러로그 하나에 깨던 새벽에서 벗어나기까지 — 상품 모니터링 진화기
상품 모니터링 체계를 Slack 알림 중심에서 DLQ 재처리, Workflow 자동 분석, 정합성 자동화로 진화시켰습니다. 사람이 개입할 일을 줄이고 장애 판단과 대응 속도를 높인 사례를 공유했습니다.

상품 모니터링 체계를 Slack 알림 중심에서 DLQ 재처리, Workflow 자동 분석, 정합성 자동화로 진화시켰습니다. 사람이 개입할 일을 줄이고 장애 판단과 대응 속도를 높인 사례를 공유했습니다.


HYBE는 AWS DevOps Agent와 Custom MCP 서버로 인시던트 조사와 Jira 생성을 자동화했습니다. 서비스 카탈로그와 Skill을 더해 분산된 도구와 이름 불일치 문제를 해결했습니다.


GS리테일이 Amazon Bedrock과 MCP로 AIOps Agent를 구축해 인시던트 분석을 자동화했습니다. 평균 분석 시간을 약 30분에서 약 2분으로 줄이고 RCA 보고서와 Teams 알림까지 자동화했습니다.


삼성계정 서비스의 장애 대응을 Multi-Agent 기반 Agentic AIOps로 자동화한 사례를 소개했습니다. 관측 데이터 수집, RCA, 조치 제안을 분리해 3분 47초 만에 분석을 완료했습니다.
ChatGPT Apps SDK와 MCP로 요기요 배달 서비스를 연결한 개발 과정을 정리했습니다. 위젯, CSP, 배포 분리, 모니터링까지 실제 운영 관점의 설계가 담겼습니다.
3개 서비스에 맞는 SLO와 모니터를 데이터 기반으로 표준화하고, 배포 중 Error Budget이 소진되지 않도록 자동화했습니다. 오탐을 줄이고 실제 비즈니스 실패를 더 정확히 탐지하는 운영 체계를 구축했습니다.


Claude Code의 사용 패턴과 비용, 성능을 팀 단위로 모니터링하는 4가지 방법을 정리했습니다. OpenTelemetry, SigNoz, Datadog, claude-code-otel로 ROI와 활용도를 확인할 수 있습니다.

ODI 배치 기반 캠페인 동기화를 OGG와 Kafka 기반 CDC로 전환한 사례를 다뤘습니다. 메시지 순서 문제는 Retry, DLT, 복구 배치로 보완했고 실시간 정합성과 운영 모니터링을 강화했습니다.

쿠버네티스 기본 배포의 한계를 줄이기 위해 Argo Rollouts로 카나리 배포를 자동화했습니다. Nginx Ingress와 Datadog 연동으로 점진적 전환과 무인 롤백 구조를 구축했습니다.
Datadog 모니터링 분석을 Gemini로 자동화해 주간 작업 시간을 1시간에서 5분으로 줄였습니다. 다만 이미지 분석과 비즈니스 맥락 부족으로 인한 한계는 API 데이터와 검증 과정으로 보완했습니다.


실시간 메시지 기반 환경에서 데이터 정합성을 API 자동화 테스트로 검증한 사례를 소개했습니다. 정기 실행과 모니터링까지 연결해 리소스를 줄이고 운영 안정성을 높였습니다.


빅뱅 배포 기반 GMS 구축에서 QA가 기능, 동시성, E2E, UAT를 단계적으로 설계한 사례를 다뤘습니다. 운영 이후에는 Datadog 모니터링으로 조용한 실패까지 감시하며 안정성을 높였습니다.