

모니터링에서 옵저버빌리티로 더 나은 시스템 이해를 위한 여정
기존 모니터링의 한계를 짚고 옵저버빌리티의 필요성을 설명했습니다. 메트릭·로그·트레이스를 연결해 원인 분석과 장애 대응을 더 정확하게 만드는 방향을 제시했습니다.


기존 모니터링의 한계를 짚고 옵저버빌리티의 필요성을 설명했습니다. 메트릭·로그·트레이스를 연결해 원인 분석과 장애 대응을 더 정확하게 만드는 방향을 제시했습니다.

CloudWatch Investigations로 알람과 연관된 지표, 로그, 리소스를 연결해 장애의 맥락을 파악하는 방법을 소개했습니다. 복잡한 장애에서 무엇부터 볼지 안내해 주는 조사 가이드로 활용할 수 있다고 설명했습니다.


생성형 AI가 SDLC 전 과정을 어떻게 바꾸는지 단계별로 정리했습니다. Amazon Bedrock, Amazon Q Developer, Kiro를 활용한 명세서 기반 개발과 운영 지원을 소개했습니다.

클라우드 트래픽 비용은 외부 유입과 콘텐츠 사용량에 따라 급격히 늘 수 있어 사전 점검이 필요했습니다. 가비아 클라우드의 무료 트래픽 혜택으로 스타트업과 중소기업의 비용 부담을 줄일 수 있었습니다.

서버 로깅 포맷을 통일해 유저·요청 단위 추적과 호출 위치 확인이 쉬워지도록 개선했습니다. 메타데이터와 트레이스를 더해 디버깅과 모니터링 효율을 높였습니다.


K9s를 활용해 터미널에서 Kubernetes 클러스터를 빠르고 직관적으로 관리하는 방법을 소개했습니다. 에어갭 환경에서도 유용한 기능과 주요 단축키를 함께 정리했습니다.


K9s는 터미널에서 Kubernetes를 빠르게 관리할 수 있게 돕는 TUI 도구입니다. 에어갭 환경과 멀티 클러스터 운영에서도 효율을 높이는 사용법을 소개했습니다.


Aurora MySQL에서 Long Query와 긴 트랜잭션이 성능에 미치는 영향을 설명했습니다. 로그, Performance Insights, 스키마 정보를 활용한 모니터링과 개선 방법을 정리했습니다.

Cursor와 MCP로 유저챗 대응과 PR 리뷰를 자동화해 반복 업무 시간을 크게 줄인 사례를 소개했습니다. 업무 절차를 문서화하고 파이프라인화해 AI가 분석과 리뷰를 돕도록 구성했습니다.


NOL의 결제 서비스 운영 안정화 방법을 PG 다중화, 결제수단 차단, 이벤트 모니터링 중심으로 정리했습니다. 또한 대시보드와 알림으로 이상 징후를 빠르게 감지하는 운영 방식을 소개했습니다.


QA를 사후 검수가 아닌 장애 예방과 신뢰 설계를 위한 전략으로 설명했습니다. 리스크 기반 테스트와 전 주기 장애 대응 체계를 사례와 함께 정리했습니다.
토스증권이 H100 GPU의 자원 낭비를 줄이기 위해 MIG 기반 GPU 가상화를 도입한 과정을 정리했습니다. Kubernetes 연동과 모니터링 설정까지 포함해 운영 관점의 적용 방법을 설명했습니다.