이 게시물은 Apache Spark에서 컬럼 기반 저장 포맷인 Parquet의 활용 경험을 공유합니다.
Parquet의 장점
저장 용량 74% 절감
10~30배의 처리 성능 향상
주요 개선 사항
Parquet의 Dictionary encoding, Column pruning, Predicate pushdown 등 다양한 기능을 조정하여 성능을 최적화했습니다. 또한, nested field에 대한 지원은 부족했지만 top level에서의 column pruning으로 만족스러운 결과를 얻었습니다.