
Istio 3-2편: Partially Enrolled Pod와 Untaint Controller
Ambient mode에서 Pod은 Ready인데 mesh 트래픽이 실패하는 partially enrolled 문제를 다뤘습니다. istio-cni 준비 전에는 일반 Pod이 스케줄되지 않도록 startup taint와 untaint-controller를 활용했습니다.

Ambient mode에서 Pod은 Ready인데 mesh 트래픽이 실패하는 partially enrolled 문제를 다뤘습니다. istio-cni 준비 전에는 일반 Pod이 스케줄되지 않도록 startup taint와 untaint-controller를 활용했습니다.
Job 워크로드는 중단에 취약해 EKS 노드그룹 오토스케일링이 어려웠습니다. 이를 해결하기 위해 PodAffinity로 bin-packing을 유도하고, 애노테이션으로 축소 중 종료를 막았습니다.


EKS와 Spot, RabbitMQ, KEDA, Karpenter를 결합해 대규모 데이터 전처리 파이프라인을 구축했습니다. 단일 큐 병목을 없애 비용을 크게 줄이고 처리 시간도 수 일에서 수 시간으로 단축했습니다.


SageMaker HyperPod에 Karpenter 기반 관리형 노드 오토스케일링이 추가되었습니다. KEDA와 함께 사용해 추론·학습 워크로드를 메트릭 기반으로 탄력적으로 확장할 수 있습니다.


Amazon ECS 기반 인프라를 Amazon EKS로 전환해 운영 유연성을 높이고 GitOps 체계를 구축했습니다. Binpacking과 Spot 전략으로 자원 활용률과 비용 효율도 크게 개선했습니다.


Amazon EKS Auto Mode의 내부 구성과 동작 방식을 소개했습니다. 데이터 플레인 운영, 보안 패치, 노드 최적화를 AWS가 자동 처리하는 흐름을 설명했습니다.

Karpenter 도입 과정에서 마주한 스케줄링 정합성, AMI 운영, Node Churn 문제를 정리했습니다. 적절한 budget과 리소스 보정으로 비용을 줄이고 안정성을 개선했습니다.