총 용량 1EB 초과! 서로 역사가 다른 두 HDFS를 어떻게 연결할까? 데이터 플랫폼 연계 중 직면한 과제와 설계 결정
6
AI 요약

이 글은 AI가 원문을 분석하여 핵심 내용을 요약한 것입니다.

이 글은 LY Corporation이 구 LINE과 구 Yahoo Japan의 서로 다른 HDFS 플랫폼을 통합한 뒤 1EB를 넘는 대규모 운영과 플랫폼 간 연계를 해결한 과정을 정리합니다. 파트 1에서는 두 플랫폼이 ViewFS/Role 기반 포털 중심(구 LINE)과 RBF/Path 기반 HDFS Permission 중심(구 Yahoo Japan)으로 발전해온 차이를 설명하고, 그로 인해 NameNode 힙/네트워크 혼잡/조작 요청 지연 같은 병목이 발생했음을 다룹니다. 구 LINE은 스몰 파일 병합과 Namespace별 부하 특성 분석으로 NameNode 부하와 Balancer 영향에 대응합니다. 구 Yahoo Japan은 라우터 확충이 기대만큼 효과가 없자 msync가 Active NameNode 부하를 유발하는 근본 원인을 찾아 처리 빈도를 재검토해 지연을 개선합니다. 파트 2에서는 플랫폼 간 권한 관리 모델과 데이터 전송 방식을 맞추기 위해, 구 Yahoo Japan에 구 LINE의 테이블 기반 거버넌스 영역을 단계적으로 신설하는 결정을 소개합니다. 또한 데이터 전송은 기존 S3 경유 대신 DistCP를 직접 활용하되, Cross-Realm Kerberos 인증과 CapacityScheduler 큐/NodeLabel 기반 인가·네트워크 ACL 통제로 운영 가능하게 설계합니다. 결론적으로 단순 연결이 아니라 인증·인가·네트워크·운영 흐름까지 포함해 안전하고 지속적으로 연계 가능한 토대를 마련했다고 정리합니다.

연관 게시글