
9
AI 요약
이 글은 AI가 원문을 분석하여 핵심 내용을 요약한 것입니다.
쿠키런: 킹덤 AWS AZ 장애 대응
2021년 2월 19일, AWS 도쿄 리전 데이터센터의 냉각 시스템 고장으로 인해 쿠키런: 킹덤의 데이터베이스 장애가 발생했습니다. 이 장애로 인해 60대 중 6대의 DB 노드가 작동 불능이 되었고, 이로 인해 25,000개의 Range 중 2개가 소실되었습니다. CockroachDB의 분산 구조 덕분에 데이터 유실을 최소화할 수 있었지만, AZ 장애를 고려하지 않은 설정이 문제로 작용했습니다. 엔지니어들은 생존한 노드에서 데이터를 복구하기 위해 여러 방법을 시도하였고, 결국 소스코드의 명령어를 통해 일부 데이터를 성공적으로 복구했습니다. 이 사건은 멀티 AZ 전략의 중요성을 다시 한번 깨닫게 해주었으며, 이후 Locality 설정을 통해 장애 대비를 강화하게 되었습니다.