Karpenter 트러블슈팅 — 비용과 안정성 두마리 토끼 잡기
100
AI 요약

이 글은 AI가 원문을 분석하여 핵심 내용을 요약한 것입니다.

Karpenter 트러블슈팅 및 비용과 안정성 최적화

이 게시물은 당근페이 인프라팀이 기존 ASG 기반의 오토스케일링 한계를 극복하고 Karpenter 도입을 통해 비용 절감과 안정성 확보를 시도한 경험을 다룹니다.

Karpenter 개요 및 주요 기능

  • 파드 수요에 맞춘 노드 자동 생성과 생명주기 관리
  • NodeClass, NodePool, NodeClaim을 통한 노드 규격과 관리
  • Consolidation 기능으로 비효율적 노드 삭제 및 자원 최적화

주요 트러블슈팅 사례

  • 스케줄링 로직 복잡성과 kube-scheduler와 일부 불일치 문제
  • 커스텀 AMI 사용 시 계정 간 태그 관리의 어려움
  • 작은 노드 위주 생성과 DaemonSet 비용 문제
  • 실제 노드 리소스와 Karpenter 계산 리소스 차이로 인한 과도한 프로비저닝
  • Node Churn 문제로 인한 대규모 노드 재배치 현상

개선 및 향후 계획

  • 노드 웜업 시간 단축을 위한 오버프로비저닝과 readinessProbe 적용
  • 서비스 레이턴시 안정화를 위한 disruption 방지 어노테이션 자동 삽입 컨트롤러 개발
  • Karpenter 스케줄링 시뮬레이터 개발로 스케줄링 정합성 향상 목표

연관 게시글