EKS + ALB 환경에서 Argo Rollouts 503 에러 없는 카나리 배포 적용기

1
AI 요약

이 글은 AI가 원문을 분석하여 핵심 내용을 요약한 것입니다.

이 게시물은 EKS + ALB 환경에서 Argo Rollouts의 Promote 시 발생하는 503 문제 원인 분석과 Canary PingPong 전략 적용기입니다.

핵심 원인

  • Service selector 변경 시 EndpointSlice 변경으로 ALB Target Group의 target 재등록 발생
  • 새로 등록된 target이 헬스체크 통과 전까지 initial 상태로 약 30초간 503 응답 발생

PingPong 전략 개요

  • 두 개의 Target Group(TG-A, TG-B)을 고정하고 배포마다 stable/canary 역할 교대
  • Promote 시 Service selector 변경 없이 ALB ForwardConfig의 weight만 swap하여 트래픽 유실 없음

적용 포인트

  • root/ping/pong 3개 Service 구성
  • Ingress backend port를 name: use-annotation으로 설정하여 ForwardConfig 활성화
  • maxUnavailable: 0 설정과 단계별 pause로 관찰 시간 확보

연관 게시글