NELO Alaska: 대용량 로그 데이터 저장을 위한 Apache Iceberg 도입기
64
AI 요약

이 글은 AI가 원문을 분석하여 핵심 내용을 요약한 것입니다.

NELO Alaska: 대용량 로그 데이터 저장을 위한 Apache Iceberg 도입기

이 게시물은 네이버의 로그 모니터링 시스템 NELO에 Apache Iceberg 기반의 신규 스토리지 컴포넌트 Alaska를 도입한 경험을 다룹니다.

기존 시스템의 한계와 요구사항

  • Elasticsearch 기반 로그 시스템은 확장성 및 비용 문제에 직면
  • 로그 저장 기간이 길어지면서 장기 데이터 저장에 적합한 새로운 스토리지 필요
  • 검색 빈도가 낮은 데이터를 위한 저비용 스토리지와 컴퓨팅 분리 설계

Iceberg 기반 신규 시스템 구조

  • Iceberg의 오픈 테이블 포맷과 ACID 트랜잭션 지원 활용
  • Kafka에서 데이터를 읽어 Iceberg 테이블로 저장하는 Orca, 데이터 최적화 Polarbear, 카탈로그 Puffin 컴포넌트 개발
  • 쿼리 엔진으로 Trino 사용, 실시간과 장기 저장 데이터 분리 운영

개발 및 운영 고려사항

  • 오픈 소스 도구의 한계로 인해 일부 컴포넌트 직접 개발
  • 메모리 효율, Kafka 오프셋 관리, 중복 데이터 처리 전략 적용
  • 데이터 최적화를 위한 배치 작업과 시스템 테이블 활용

연관 게시글