2
AI 요약
이 글은 AI가 원문을 분석하여 핵심 내용을 요약한 것입니다.
이 게시물은 Grafana OnCall과 Amazon Connect를 연동해 비용 효율적인 24/7 온콜(전화·Slack) 시스템을 실제 운영 환경에 구축한 과정을 다룹니다.
LGTM 스택(Loki·Grafana·Tempo·Mimir)에 Grafana OnCall을 통합해 탐지→알림→대응 흐름을 한 플랫폼에서 관리하고, SQLite 대신 RDS(MySQL)로 영속성과 운영 안정성을 확보합니다.
AWS ELBv2 API를 주기적으로 호출해 Target Group의 Unhealthy 상태를 빠르게 감지한 뒤, OnCall DB(iCal 스케줄)에서 현재 담당자 정보를 조회해 Amazon Connect로 자동 발신하는 구조를 소개합니다.
또한 Slack의 버튼으로 전화 중지/ACK 처리, DB 기반 상태 관리로 중복 알림을 차단하고, Team 태그 기반 라우팅·비동기 처리·에스컬레이션 정책 등 운영 팁과 확장 사례를 정리합니다.
- 핵심 목표: 비용 최적화, 알림 노이즈 감소, 대응 시간 단축

