효율적인 하둡 플랫폼 운영을 위한 “Hive 사용량 통계 레포트” 개발기 - 네이버 플레이스 | Velopers

효율적인 하둡 플랫폼 운영을 위한 “Hive 사용량 통계 레포트” 개발기

2022년 11월 18일

17

AI 요약

이 글은 AI가 원문을 분석하여 핵심 내용을 요약한 것입니다.

효율적인 하둡 플랫폼 운영을 위한 Hive 사용량 통계 레포트 개발기

이 게시물은 하둡 에코시스템 내에서 Hive 사용량 통계를 수집하고 분석하여 효율적인 데이터 플랫폼 운영을 지원하는 방법을 설명합니다.

주요 내용

Cloudera Navigator 기반 웹 크롤링을 통한 초기 Hive 사용량 데이터 수집
Hortonworks DataPlatform 전환 후 Hive 로그 파일 분석 및 Spark 기반 병렬 처리 도입
실시간 로그 수집을 위한 Filebeat, Logstash, Kafka 활용과 Spark Streaming 적용
Apache Iceberg 도입과 Hidden Partitioning을 통한 데이터 조회 효율성 및 네임노드 메모리 최적화
Tableau를 활용한 시각화 및 정기 리포트 작성으로 운영 현황 공유

개발 후기 및 교훈

웹 크롤링 방식의 한계와 REST API 활용 필요성 인지
Spark와 분산 처리 기술 학습 및 적용 경험
초기 설계 단계에서 경험 많은 데이터 엔지니어와 충분한 협의의 중요성

연관 게시글

Hive에서 Iceberg로: 데이터 반영 속도 12배 향상의 비밀

Hive에서 Iceberg로: 데이터 반영 속도 12배 향상의 비밀

라인 • 2026년 4월 3일

입수는 Datalake로! (feat. Iceberg)

입수는 Datalake로! (feat. Iceberg)

토스 • 2024년 10월 29일

Spark Streaming을 활용한 파생 데이터 생성 시간 감축 사례

Spark Streaming을 활용한 파생 데이터 생성 시간 감축 사례

SK플래닛

SK플래닛 • 2024년 10월 23일