
네이버 검색 SRE - 지진과 비상 대응 시스템
네이버 검색의 지진 대응 사례를 통해 비상 대응 시스템과 상위 레벨 모니터링의 필요성을 설명했습니다. 빠른 이상 탐지, 자동 비상 모드, 수동 대응 UI가 서비스 안정성의 핵심이라고 정리했습니다.
새로운 기술 블로그가 추가되었어요

네이버 검색의 지진 대응 사례를 통해 비상 대응 시스템과 상위 레벨 모니터링의 필요성을 설명했습니다. 빠른 이상 탐지, 자동 비상 모드, 수동 대응 UI가 서비스 안정성의 핵심이라고 정리했습니다.

AWS EKS를 더 안정적이고 확장성 있게 운영하기 위해 Karpenter 파일럿을 진행한 내용을 공유했습니다. 온프레미스 중심 환경에서 EKS 운영 방식을 점검한 사례입니다.


XY 국가 일부 사용자에게 통신사 Z 환경에서만 STOMP timeout이 반복 발생했습니다.\n데이터 분석, mobile proxy 재현, SNI 핫픽스로 원인을 좁히고 오류를 해소했습니다.

kubectl로 파드를 만들 때 내부에서 어떤 요청과 상태 변화가 오가는지 감사 로그를 따라가며 설명했습니다. kube-apiserver, kube-scheduler, kubelet의 역할 분담과 audit log 활용 포인트를 정리했습니다.

ABC Platform 팀이 데마에칸을 위한 플랫폼 조직으로 자리잡기까지의 1년을 회고했습니다. 복잡한 프로세스를 줄이고 작은 성공과 자율성을 바탕으로 팀 운영 체계를 다듬었습니다.
무신사 테크가 2023년 엔지니어링 성과를 공유하는 밋업을 준비하고 운영한 과정을 정리했습니다. 다양한 기술 발표와 시상식, 높은 만족도를 통해 사내 기술 문화 확산의 의미를 전했습니다.


롯데ON 개발자 커뮤니티 Drop The Meet-up 5회차 진행 소식을 공유했습니다. 클라우드플랫폼팀의 운영 범위와 포스트모텀 사례, 질의응답 현장을 소개했습니다.


AWS re:Invent 2023에 처음 참석해 행사 흐름과 현장 체험을 사진 중심으로 정리했습니다. 라스베가스 이동, 배지 수령, 엑스포, 세션, re:Play와 체력 관리 포인트를 소개했습니다.

서비스 전반의 모니터링과 별개로, 사이트 신뢰성을 위한 서비스 레벨 지표와 목표 범위를 고민한 글입니다. SRE 관점에서 Request 기준의 신뢰성 측정 체계를 구성하려는 방향을 다뤘습니다.


X


EKS 클러스터 이전 과정에서 AWS Karpenter를 도입한 사례를 소개했습니다. 클러스터 운영 개선 관점에서 EKS 환경 적용 포인트를 공유했습니다.