

백패커의 Amazon EKS 운영 최적화 여정 2부: 운영 심화 및 장애 대응 사례
백패커의 Amazon EKS 운영 중 발생한 Spot 인스턴스 종료와 트래픽 급증 장애 사례를 정리했습니다. AZ Rebalance 조정, Custom Scheduler, nf_conntrack 튜닝과 모니터링 강화로 안정성을 높였습니다.


백패커의 Amazon EKS 운영 중 발생한 Spot 인스턴스 종료와 트래픽 급증 장애 사례를 정리했습니다. AZ Rebalance 조정, Custom Scheduler, nf_conntrack 튜닝과 모니터링 강화로 안정성을 높였습니다.


LLM 서비스는 TTFT, ITL, 토큰 처리량 같은 지표로 부하테스트해야 합니다.\nvLLM 예제를 통해 병목과 네트워크 문제를 점검하고 사용자 체감 성능을 개선할 수 있습니다.


라마단 수요에 맞춰 알람 기능과 현지 마케팅을 함께 설계해 중동 시장을 공략했습니다. 짧은 일정 속에서도 로컬라이제이션과 협업으로 성과를 만들고, 사전 검증의 중요성도 확인했습니다.


토스증권은 Nasdaq Smart Options 실시간 시세를 국내에 안정적으로 전송하기 위해 글로벌 인프라와 EKS 기반 소비 구조를 구축했습니다. 또한 Sliding Window Counter와 장애 대응 체계를 적용해 지연과 유실을 줄였습니다.
카카오내비가 대규모 트래픽을 안정적으로 처리하기 위해 응답 크기 축소와 웜업, 모니터링을 적용한 사례를 공유했습니다. 운영 관점에서 초기 지연을 줄이고 서비스 상태를 지속적으로 관리하는 방법을 소개했습니다.


주니어 개발자들의 디버깅 역량 강화를 위해 10주간 스터디를 진행했습니다. 현상보다 원인과 단서 수집에 집중하는 디버깅 습관과 실전 사례를 공유했습니다.

Sentry의 에러 수집 한도와 노이즈 문제를 줄이기 위해 로그를 고도화하고 필터링했습니다. Alert와 대응 프로세스까지 정비해 선제적 장애 탐지를 목표로 했습니다.


Flink 어플리케이션의 end-to-end latency 병목을 찾기 위해 operator 지표와 flame graph를 활용하는 방법을 소개했습니다. 처리 시간과 처리 외 시간을 분리해 관측하고, 병목 유형별로 다른 개선 방향을 제시했습니다.


Chain-of-Draft는 LLM이 핵심만 간결하게 추론하도록 유도해 토큰 사용량과 지연 시간을 줄이는 프롬프팅 기법을 소개했습니다. 다양한 벤치마크에서 CoT와 비슷한 정확도를 유지하면서도 효율을 높인 결과와 한계를 함께 정리했습니다.

기존 IDC 환경을 AWS로 전환하며 네트워크 효율성을 고려한 설계로 비용 최적화를 달성했습니다. 또한 보안과 모니터링을 강화해 안정적인 운영 체계를 마련했습니다.


AWS CloudWatch의 Cross-account-observability로 여러 계정의 모니터링을 중앙화하는 방법을 소개했습니다. 데이터 복제 없이 비용 효율적으로 운영할 수 있지만, 리전 제한과 Trace 과금은 주의가 필요합니다.


GitLab Secret Detection으로 리포지터리의 시크릿 유출을 자동 탐지하는 방법을 설명했습니다. 파이프라인 설정부터 보고서 확인, 후속 조치까지의 흐름을 정리했습니다.