
신뢰성 향상을 위한 SLO/SLI 도입 3편 - 서비스 적용 사례
SLI/SLO를 서비스 관점에서 정의하고 운영에 적용하는 방법을 정리했습니다. 오류 예산과 대시보드를 활용해 신뢰성과 개발 리소스 균형을 맞추는 사례를 소개했습니다.
새로운 기술 블로그가 추가되었어요

SLI/SLO를 서비스 관점에서 정의하고 운영에 적용하는 방법을 정리했습니다. 오류 예산과 대시보드를 활용해 신뢰성과 개발 리소스 균형을 맞추는 사례를 소개했습니다.

입사 10일 만에 인프라 온보딩을 문서, 검증, AI 대화의 3계층 구조로 다시 설계했습니다. 정책 자동화와 Multi-Agent 실습까지 더해 신규 입사자 경험을 개선했습니다.


Claude Code의 Checkpoints와 /rewind로 코드와 대화를 시점별로 되돌리는 방법을 설명했습니다. Tasks 상태와 Bash 변경은 추적되지 않으므로 Git 커밋이 필요하다고 정리했습니다.


LLM-as-a-Judge를 설계해 설명 생성 품질을 자동 평가하는 방법을 소개했습니다. 체크리스트와 critique 구조화로 인간 평가와의 정합성을 높이고, 디버깅과 데이터 정제에도 활용했습니다.


정답 데이터가 없는 설명 생성 문제에서 좋은 설명의 기준을 먼저 합의하고 정책으로 정리하는 과정을 소개했습니다. PM과 엔지니어가 pass/fail 평가와 critique를 반복하며 모델과 평가 기준을 함께 수렴시켰습니다.


AWS Bedrock Converse API로 멀티 모델 에이전트를 구성하는 예시를 소개했습니다. 로컬 도구와 Lambda 도구를 함께 연결해 스트리밍 대화와 도구 호출 흐름을 구현했습니다.


OpenAI Codex 플러그인이 Slack, Figma, Gmail 등 실무 도구를 자연어로 연결해 워크플로우를 자동화하는 흐름을 소개했습니다. 팀 생산성을 높이기 위한 점진적 도입 방법과 개발자의 준비 포인트도 정리했습니다.


Slurm의 내부 구조와 Job 실행 흐름을 설명하며 HPC에서의 자원 관리 방식을 정리했습니다. 또한 대화형 작업, 배치 학습, Job 배열, QOS와 Fairshare 활용법을 실무 예제로 소개했습니다.


Palantir FDE를 소프트웨어를 만드는 역할이 아니라 현실에서 작동시키는 실행 역할로 설명했습니다. PoC를 운영과 채택으로 연결해야 실제 비즈니스 임팩트가 난다고 정리했습니다.

X

티빙이 2026 KBO 리그 전 경기 독점 생중계와 다양한 시청 기능을 소개했습니다. 커스텀 중계와 티빙톡, 독점 콘텐츠로 야구 팬 경험을 확장했습니다.


AI Agent와 Claude Code를 활용해 백엔드 유닛 테스트 커버리지를 100%로 끌어올린 과정을 소개했습니다.프롬프트 고정, Hook 검증, 작업 분리로 회귀 방지와 유지 구조까지 설계했습니다.