백패커의 Amazon EKS 운영 최적화 여정 1부: 운영 핵심 요소 최적화
41
AI 요약

이 글은 AI가 원문을 분석하여 핵심 내용을 요약한 것입니다.

백패커의 Amazon EKS 운영 최적화 여정 1부: 운영 핵심 요소 최적화

이 게시물은 백패커가 Amazon EKS를 도입하여 서비스 안정성, 확장성, 보안성, 비용 효율성을 확보하며 직면한 주요 문제들과 해결 과정을 공유합니다.

주요 도전과제 및 해결책

  • CoreDNS 부하 분산 및 고가용성 확보: 기본 CoreDNS 설정의 병목 문제를 NodeLocalDNS Cache, Pod 고가용성 설정, ndots 값 조정, Istio DNS Proxying 활용으로 해결
  • MySQL Connection Reset 문제: 커널 파라미터 nf_conntrack_tcp_be_liberal 값을 1로 변경하여 Kubernetes NAT 환경에서 발생하는 TCP 연결 끊김 문제 개선
  • Istio 환경 MSA 서비스 간 Connection Reset 문제: Istio 최대 연결 시도 횟수를 1회에서 5회로 늘려 간헐적 연결 실패 문제 해소

운영 최적화의 중요성

프로덕션 환경에서 AWS 관리 영역 외의 복잡한 문제들을 트러블슈팅하며, 각 문제의 근본 원인을 찾아 맞춤형 개선책을 적용해 서비스 안정성을 크게 향상시켰습니다.
다음 2부에서는 심화된 운영 및 장애 대응 사례를 다룰 예정입니다.

연관 게시글