[기술이 장르가 되는 곳, kt cloud] 케클러 인터뷰 시리즈 #2 장애에도 서비스가 멈추지 않는 ‘Multi-AZ’ 엔지니어링 비하인드
26
AI 요약

이 글은 AI가 원문을 분석하여 핵심 내용을 요약한 것입니다.

이 게시물은 kt cloud의 Multi-AZ 설계와 엔지니어링 비하인드를 다룹니다.

핵심 요약

  • 목표: 장애 이후 복구가 아닌 장애를 전제로 한 서비스 연속성 확보
  • 아키텍처: Active-Active 방식으로 여러 AZ가 평상시부터 트래픽 처리
  • 구현: 하나의 Kubernetes/OpenStack 플랫폼을 여러 데이터센터에 걸쳐 Stretched Cluster로 통합 운영
  • 쿼럼 해결: 2AZ 환경의 Raft 계열 쿼럼 문제를 Satellite Zone 추가로 3개 장애 도메인 구성하여 해결
  • 선택 이유: 서울 리전 내부 AZ 구성으로 Multi-Region의 지연·복잡도 문제 완화 및 운영 간소화

연관 게시글