EKS + ALB 환경에서 Argo Rollouts 503 에러 없는 카나리 배포 적용기
1
AI 요약
이 글은 AI가 원문을 분석하여 핵심 내용을 요약한 것입니다.
이 게시물은 EKS + ALB 환경에서 Argo Rollouts의 Promote 시 발생하는 503 문제 원인 분석과 Canary PingPong 전략 적용기입니다.
핵심 원인
- Service selector 변경 시 EndpointSlice 변경으로 ALB Target Group의 target 재등록 발생
- 새로 등록된 target이 헬스체크 통과 전까지 initial 상태로 약 30초간 503 응답 발생
PingPong 전략 개요
- 두 개의 Target Group(TG-A, TG-B)을 고정하고 배포마다 stable/canary 역할 교대
- Promote 시 Service selector 변경 없이 ALB ForwardConfig의 weight만 swap하여 트래픽 유실 없음
적용 포인트
- root/ping/pong 3개 Service 구성
- Ingress backend port를 name: use-annotation으로 설정하여 ForwardConfig 활성화
- maxUnavailable: 0 설정과 단계별 pause로 관찰 시간 확보
