
5
AI 요약
이 글은 AI가 원문을 분석하여 핵심 내용을 요약한 것입니다.
쿠키런: 킹덤 데이터베이스 장애 복구
쿠키런: 킹덤은 런칭 후 4일 만에 약 36시간 동안 서비스 장애를 겪었습니다. 이 장애는 CockroachDB의 스토리지 문제로 발생하였으며, 디스크 공간이 가득 차면서 쓰기 작업이 중지된 것이 원인이었습니다.
장애 복구 과정
- Ballast 파일 생성 실패로 인해 일부 노드에서 파일 시스템 불안정이 발생했습니다.
- Plan A: 운영체제 레벨에서 노드 복원 시도
- Plan B: 남아있는 노드의 데이터를 활용한 복원
- Plan C: 백업 데이터와 로그 데이터를 통한 복원
Plan B가 성공하여 데이터를 복구하고, 서비스가 재개되었습니다. 이후 DevPlay 플랫폼과 데이터베이스 부하로 인해 추가 점검이 필요했으나 최종적으로 안정화되었습니다.