36
AI 요약
이 글은 AI가 원문을 분석하여 핵심 내용을 요약한 것입니다.
이 게시물은 Redis 네트워크 대역폭 초과로 인한 전시 서비스 장애 대응기입니다.
장애 원인
- 버스트 크레딧 소진으로 인한 ElastiCache 네트워크 Throttling과 그로 인한 Redis 응답 지연 및 커넥션 실패
즉시 대응
- Redis 노드 스케일업(cache.r7g.large → cache.r7g.2xlarge)으로 네트워크 용량 확보 및 서비스 정상화
재발 방지 및 개선
- 네트워크 대역폭·Throttling 메트릭 모니터링 강화와 Datadog 알림 설정
- 로컬 캐시(Caffeine) 계층화로 Redis 트래픽 완화, Snappy+protobuf로 캐시 데이터 압축 검토


