신뢰성 향상을 위한 SLI/SLO 도입 2편 - 플랫폼 적용 사례
7
AI 요약

이 글은 AI가 원문을 분석하여 핵심 내용을 요약한 것입니다.

신뢰성 향상을 위한 SLI/SLO 도입 사례

이 게시물은 LINE 미디어 플랫폼 OBS에 SLI 및 SLO를 도입하여 플랫폼 신뢰성을 측정하고 개선한 경험을 공유합니다.

주요 내용

  • 플랫폼 특성에 맞춘 CUJ(핵심 사용자 여정) 정의 및 API별 SLI 선정
  • Kafka, Vector, Prometheus를 활용한 대규모 메트릭 수집 및 처리 아키텍처 구축
  • Vector 최적화와 Prometheus Recording Rules 적용을 통한 쿼리 성능 개선
  • SLI/SLO 기반 대시보드 및 알람 시스템 구축으로 운영 효율성 향상

향후 방향

  • 플랫폼을 사용하는 서비스들과 SLI/SLO 공유 및 확장
  • 다양한 미디어 플랫폼에 SLI/SLO 적용으로 LY 서비스 전반 신뢰성 강화