총 용량 1EB 초과! 서로 역사가 다른 두 HDFS를 어떻게 연결할까? 데이터 플랫폼 연계 중 직면한 과제와 설계 결정 - 라인

이 글은 AI가 원문을 분석하여 핵심 내용을 요약한 것입니다.

이 글은 LY Corporation이 구 LINE과 구 Yahoo Japan의 서로 다른 HDFS 플랫폼을 통합한 뒤 1EB를 넘는 대규모 운영과 플랫폼 간 연계를 해결한 과정을 정리합니다. 파트 1에서는 두 플랫폼이 ViewFS/Role 기반 포털 중심(구 LINE)과 RBF/Path 기반 HDFS Permission 중심(구 Yahoo Japan)으로 발전해온 차이를 설명하고, 그로 인해 NameNode 힙/네트워크 혼잡/조작 요청 지연 같은 병목이 발생했음을 다룹니다. 구 LINE은 스몰 파일 병합과 Namespace별 부하 특성 분석으로 NameNode 부하와 Balancer 영향에 대응합니다. 구 Yahoo Japan은 라우터 확충이 기대만큼 효과가 없자 msync가 Active NameNode 부하를 유발하는 근본 원인을 찾아 처리 빈도를 재검토해 지연을 개선합니다. 파트 2에서는 플랫폼 간 권한 관리 모델과 데이터 전송 방식을 맞추기 위해, 구 Yahoo Japan에 구 LINE의 테이블 기반 거버넌스 영역을 단계적으로 신설하는 결정을 소개합니다. 또한 데이터 전송은 기존 S3 경유 대신 DistCP를 직접 활용하되, Cross-Realm Kerberos 인증과 CapacityScheduler 큐/NodeLabel 기반 인가·네트워크 ACL 통제로 운영 가능하게 설계합니다. 결론적으로 단순 연결이 아니라 인증·인가·네트워크·운영 흐름까지 포함해 안전하고 지속적으로 연계 가능한 토대를 마련했다고 정리합니다.

연관 게시글

LINE 서비스의 대규모 광고 데이터를 처리하기 위한 Spark on Kubernetes 적용기

오픈소스 Trino를 활용한 전사 데이터 분석 시스템 구축기

JuiceFS: 오브젝트 스토리지를 활용하는 HDFS 호환 분산 파일 시스템