백패커의 Amazon EKS 운영 최적화 여정 2부: 운영 심화 및 장애 대응 사례
36
AI 요약

이 글은 AI가 원문을 분석하여 핵심 내용을 요약한 것입니다.

백패커의 Amazon EKS 운영 최적화 여정 2부: 운영 심화 및 장애 대응 사례

이 게시물은 백패커가 Amazon EKS 환경에서 Spot 인스턴스 운영과 트래픽 급증에 따른 장애 대응 경험을 공유합니다.

Spot 인스턴스 활용 이슈 및 해결

  • ASG의 AZ Rebalance 기능으로 인한 대량 노드 종료 문제를 AZ Rebalance 비활성화로 해결
  • Spot 인스턴스 종료 시 서비스 Pod 중단 문제를 On-Demand 노드에 최소 1개 Pod 배치하는 Custom Scheduler로 대응

트래픽 급증 장애 원인 및 대응

  • 설날 이벤트 트래픽 급증으로 인한 istio Node의 nf_conntrack 테이블 초과 문제 발생
  • nf_conntrack_max 값 상향, Mesh 네트워크 설정 변경, 인스턴스 타입 업그레이드, 모니터링 강화 등을 통해 문제 해결

결론

백패커는 다양한 장애 사례를 분석하고 최적화하여 EKS 기반 서비스의 안정성과 가용성을 확보하였으며, 지속적인 개선을 통해 신뢰성 높은 서비스를 제공하고자 합니다.

연관 게시글