Spark 9편: JDBC 병렬처리 시 주의 사항
50
AI 요약

이 글은 AI가 원문을 분석하여 핵심 내용을 요약한 것입니다.

Spark 9편: JDBC 병렬처리 시 주의 사항

이 게시물은 Spark의 JDBC를 사용한 병렬 처리 시 주의해야 할 사항에 대해 설명합니다.

병렬 처리 이슈

  • 단일 Task로 데이터 수집 시 timeout, OOM, Storage Spill 발생 가능
  • partitionColumn의 카디널리티가 높아도 파티션 Skew 발생

해결 방안

numPartitions 배수로 upperBound를 설정하여 소수점 버림 처리를 방지해야 하며, 적절한 partitionColumn 설정이 필요합니다.

연관 게시글