
36
AI 요약
이 글은 AI가 원문을 분석하여 핵심 내용을 요약한 것입니다.
백패커의 Amazon EKS 운영 최적화 여정 2부: 운영 심화 및 장애 대응 사례
이 게시물은 백패커가 Amazon EKS 환경에서 Spot 인스턴스 운영과 트래픽 급증에 따른 장애 대응 경험을 공유합니다.Spot 인스턴스 활용 이슈 및 해결
- ASG의 AZ Rebalance 기능으로 인한 대량 노드 종료 문제를 AZ Rebalance 비활성화로 해결
- Spot 인스턴스 종료 시 서비스 Pod 중단 문제를 On-Demand 노드에 최소 1개 Pod 배치하는 Custom Scheduler로 대응
트래픽 급증 장애 원인 및 대응
- 설날 이벤트 트래픽 급증으로 인한 istio Node의 nf_conntrack 테이블 초과 문제 발생
- nf_conntrack_max 값 상향, Mesh 네트워크 설정 변경, 인스턴스 타입 업그레이드, 모니터링 강화 등을 통해 문제 해결