요기요 카오스 엔지니어링 (1) 카오스 실험 시작하기
51
AI 요약

이 글은 AI가 원문을 분석하여 핵심 내용을 요약한 것입니다.

요기요 카오스 엔지니어링 시작하기

이 게시물은 요기요 서비스에서 수행한 카오스 엔지니어링 실험 경험을 공유합니다.

카오스 엔지니어링 개념과 중요성

  • 운영 중인 시스템에 장애를 주입하여 내구성과 안정성을 검증하는 기법
  • Netflix의 Chaos Monkey 사례와 다양한 장애 시뮬레이션 도구 소개

실험 준비 과정

  • 실험 대상 서비스와 환경 선정: membership-yo 서비스, stage-integration 환경
  • 두 가지 시나리오 설계: 네트워크 지연과 외부 API 통신 장애
  • 장애 주입 도구 선정: AWS FIS 사용 및 모니터링 지표 정의

발견된 이슈와 해결 방안

  • Istio 적용 환경에서 FIS pod 통신 문제: 사이드카 주입 비활성화로 해결
  • 임시 컨테이너 권한 문제: 실험 환경에 한해 root 권한 부여

이 글은 카오스 엔지니어링 도입 초기 고민과 문제 해결 과정을 상세히 다루며, 후속 글에서 실험 결과와 인사이트를 공유할 예정입니다.

연관 게시글