Spark 2편 – Caching 및 Persist
24
AI 요약

이 글은 AI가 원문을 분석하여 핵심 내용을 요약한 것입니다.

Spark 2편 – Caching 및 Persist

이 게시물은 Spark의 Caching 및 Persist 기능에 대해 설명합니다.

주요 기능

  • Cache()를 사용하여 메모리 전용 또는 메모리와 디스크 병행 활용
  • Persist()를 통해 다양한 저장 옵션 제공

spill over 문제

RDD를 캐시하면 메모리 공간이 한정적이기 때문에 과도한 캐싱은 디스크 spill over를 초래할 수 있습니다. 이 경우 성능이 저하될 수 있으며, 해결 방안으로는 Executor 메모리 증가, Cache Clear, 파티션 재정렬 등이 있습니다.

연관 게시글