새로운 기술 블로그가 추가되었어요

필터 1
플랫폼은 왜 계속 다시 설계되어야 할까 - Server Platform Team 이야기
라포랩스
기타

플랫폼은 왜 계속 다시 설계되어야 할까 - Server Platform Team 이야기

서버 플랫폼 팀이 조직 성장에 맞춰 플랫폼을 계속 재설계하는 이유를 소개했습니다. AI 시대의 분석·개발·운영 변화와 그에 따른 가드레일까지 함께 다뤘습니다.

#SRE#CI/CD
82005분
AI 트리아지로 인입을 자동 분류하기
아임웹
AI

AI 트리아지로 인입을 자동 분류하기

인프라 인입 이슈를 AI 트리아지로 자동 분류하고 런북으로 라우팅하는 설계를 정리했습니다.\n분류와 실행을 분리하고, 사용자 컨펌 전 외부 액션을 막는 안전한 운영 원칙을 소개했습니다.

#triage#SRE
0005분
신뢰성 향상을 위한 SLO/SLI 도입 3편 - 서비스 적용 사례
라인
아키텍처

신뢰성 향상을 위한 SLO/SLI 도입 3편 - 서비스 적용 사례

SLI/SLO를 서비스 관점에서 정의하고 운영에 적용하는 방법을 정리했습니다. 오류 예산과 대시보드를 활용해 신뢰성과 개발 리소스 균형을 맞추는 사례를 소개했습니다.

#SRE#SLO
30005분
라포랩스 직무 인터뷰 시리즈 Colon: Backend Chapter Leader
라포랩스
기타

라포랩스 직무 인터뷰 시리즈 Colon: Backend Chapter Leader

라포랩스 Backend Chapter Leader의 커리어와 팀 운영 방식, AI Native 전환 방향을 소개했습니다. 시니어 엔지니어의 역할을 팀 임팩트와 리더십 중심으로 설명했습니다.

#AWS#SRE
87005분
SRE 팀의 반복 작업을 10분의 1로 줄인 SRE 봇 개발기
라인
데브옵스

SRE 팀의 반복 작업을 10분의 1로 줄인 SRE 봇 개발기

SRE 반복 작업과 문의 대응을 Slack 워크플로 중심의 봇으로 자동화한 개발기입니다. 배포와 일반 요청 처리 시간을 크게 줄이고 운영 가시성도 높였습니다.

#SRE#Slack
104005분
신뢰성 향상을 위한 SLI/SLO 활용 1편 - SLI/SLO 프레임워크 및 서비스 상태 확인 도구 LINE Status 개발기
라인
백엔드

신뢰성 향상을 위한 SLI/SLO 활용 1편 - SLI/SLO 프레임워크 및 서비스 상태 확인 도구 LINE Status 개발기

SLI/SLO 도입 과정을 공통 프레임워크로 정리하고 사내 템플릿으로 확산한 사례를 소개했습니다. 또한 웹훅과 DB 기반으로 자동 갱신되는 서비스 상태 확인 도구 LINE Status를 만든 과정을 공유했습니다.

#SRE#SLI/SLO
68005분
“이 장애, 얼마나 심각한가요?” 사용자 경험을 기준으로 비즈니스 심각도를 정의하다
무신사
백엔드

“이 장애, 얼마나 심각한가요?” 사용자 경험을 기준으로 비즈니스 심각도를 정의하다

장애 심각도를 기술 지표가 아니라 사용자 경험과 비즈니스 영향으로 정의한 사례를 소개했습니다. CUJ와 CSP, SLI, SEV를 연결해 대시보드와 얼럿 운영까지 체계화했습니다.

#SRE#SLI
28005분
추측이 아닌 데이터로: 3개 서비스 27개 SLO와 54개 모니터를 설정하고 배포 자동화까지 구축한 2주의 집중 작업
무신사
데브옵스

추측이 아닌 데이터로: 3개 서비스 27개 SLO와 54개 모니터를 설정하고 배포 자동화까지 구축한 2주의 집중 작업

3개 서비스에 맞는 SLO와 모니터를 데이터 기반으로 표준화하고, 배포 중 Error Budget이 소진되지 않도록 자동화했습니다. 오탐을 줄이고 실제 비즈니스 실패를 더 정확히 탐지하는 운영 체계를 구축했습니다.

#SRE#SLO
17005분
장애 대응의 성패를 가르는 First Action: 우아한형제들의 장애 관리 라이프사이클
우아한 형제들
아키텍처

장애 대응의 성패를 가르는 First Action: 우아한형제들의 장애 관리 라이프사이클

장애 대응에서 가장 중요한 초동 조치와 이를 관리하는 라이프사이클을 정리했습니다. 시간 기반 메트릭으로 병목을 찾고 운영 개선으로 연결하는 방식을 소개했습니다.

#SRE#모니터링
189005분
운영 비용을 95% 절감한 서버리스 온콜 시스템 구축기
올리브영
데브옵스

운영 비용을 95% 절감한 서버리스 온콜 시스템 구축기

외부 온콜 솔루션의 비용과 안정성 한계를 해결하기 위해 서버리스 기반 온콜 시스템을 구축했습니다. 이메일 트리거, 큐 기반 제어, SMS 이중화로 안정성과 비용 효율을 함께 높였습니다.

#AWS#server
88005분
[AWS re:Invent 2025 Keynote 요약] AI Agent 시대의 개막, 그리고 르네상스 개발자
여기어때
기타

[AWS re:Invent 2025 Keynote 요약] AI Agent 시대의 개막, 그리고 르네상스 개발자

AWS re:Invent 2025에서 AI 에이전트와 이를 지원하는 인프라·플랫폼의 방향을 정리했습니다. 개발자는 AI를 보조 도구로 활용하되, 검증과 책임, 시스템 사고를 더 강화해야 한다고 강조했습니다.

#AWS#LLM
39005분
우아한형제들이 장애를 놓치지 않고 탐지하는 방법
우아한 형제들
데브옵스

우아한형제들이 장애를 놓치지 않고 탐지하는 방법

기존 시스템 지표 모니터링의 한계를 보완하기 위해 서비스 이상 탐지 시스템을 도입했습니다. 중앙값 기반 탐지와 대응 자동화로 정밀도와 탐지율을 높이고 전파 시간을 크게 줄였습니다.

#SRE#모니터링
39005분