필터 1
CDC 파이프라인 정합성 검사 Spark 잡 개발 - Part 2. Spark 최적화편
카카오
· 2025년 7월 28일
백엔드

CDC 파이프라인 정합성 검사 Spark 잡 개발 - Part 2. Spark 최적화편

CDC 파이프라인 정합성 검사 Spark 잡의 최적화 방법을 다룬 후속 글입니다. 앞선 코드 설계편에 이어 Spark 잡 성능 개선과 운영 관점을 소개했습니다.

#Spark#pipeline
37005분
Spark 9편: JDBC 병렬처리 시 주의 사항
베스핀글로벌
· 2025년 3월 28일
백엔드

Spark 9편: JDBC 병렬처리 시 주의 사항

Spark JDBC 병렬처리의 기본 사용법과 파티션 분할 방식의 주의점을 설명했습니다. 소수점 버림으로 인한 skew를 줄이기 위해 upperBound 설정과 컬럼 분포 점검이 필요했습니다.

#Spark#JDBC
67005분
Spark 8편: Rest API를 통한 데이터 수집
베스핀글로벌
· 2025년 3월 28일
백엔드

Spark 8편: Rest API를 통한 데이터 수집

Spark에서 Rest API 데이터를 수집하는 두 가지 방법을 비교했습니다. 단순 requests 방식과 Spark UDF 방식의 장단점 및 대량 데이터 처리 시 고려점을 설명했습니다.

#Spark#REST API
56005분
Spark 7편: Optimising Shuffle Partitions(coalescePartitions)
베스핀글로벌
· 2025년 3월 28일
백엔드

Spark 7편: Optimising Shuffle Partitions(coalescePartitions)

Spark 3.0의 AQE와 coalescePartitions로 셔플 파티션을 동적으로 최적화하는 내용을 소개했습니다. 셔플 파티션 크기에 따른 성능 저하 문제와 파티션 병합 방식도 설명했습니다.

#Spark#AQE
42005분
Spark 6편: Yarn Resource Manager 라벨링
베스핀글로벌
· 2025년 3월 27일
백엔드

Spark 6편: Yarn Resource Manager 라벨링

YARN 라벨링으로 Spark의 AM과 Executor를 서로 다른 노드에 배치하는 방법을 소개했습니다. EMR에서 Spot Instance 사용 시 발생하는 장애와 비용 문제를 완화하는 구성도 설명했습니다.

#Spark#Yarn
34005분
Spark 5편 – Spark Connect
베스핀글로벌
· 2025년 3월 27일
백엔드

Spark 5편 – Spark Connect

Spark의 원격 연동 한계를 보완하는 Spark Connect의 등장 배경과 동작 방식을 소개했습니다. 서버·클라이언트 환경을 구성해 Jupyter Notebook에서 실제 연결과 실행을 확인했습니다.

#Spark#Python
48005분
Spark 4편 – Broadcast
베스핀글로벌
· 2025년 3월 26일
백엔드

Spark 4편 – Broadcast

Spark의 Broadcast 기능으로 셔플을 줄이고 join 성능을 높이는 방법을 소개했습니다. 작은 데이터셋에는 자동 broadcast 감지와 설정 조건도 함께 설명했습니다.

#Spark#broadcast
37005분
Spark 3편 – Optimize Partition
베스핀글로벌
· 2025년 3월 25일
백엔드

Spark 3편 – Optimize Partition

Spark에서 파티션이 병렬성, 메모리, 파일 수에 미치는 영향을 설명했습니다.\n입력·출력·셔플 파티션 설정을 조정해 성능을 최적화하는 방법을 소개했습니다.

#Spark#partition
60005분
Spark 2편 – Caching 및 Persist
베스핀글로벌
· 2025년 3월 25일
백엔드

Spark 2편 – Caching 및 Persist

Spark의 Cache와 Persist 개념과 사용 시 주의점을 설명했습니다. 메모리 부족으로 인한 spill over를 줄이는 대응 방법도 소개했습니다.

#Spark#cache
32005분
Spark 1편 – Backend Service – Optimizer
베스핀글로벌
· 2025년 3월 25일
백엔드

Spark 1편 – Backend Service – Optimizer

Spark의 동작 방식과 Catalyst, Tungsten 최적화 역할을 소개했습니다. 논리 계획과 물리 계획, Predicate Pushdown 같은 핵심 개념을 설명했습니다.

#Spark#optimizer
73005분
[BigData] Spark 개요 정리
베스핀글로벌
· 2025년 3월 25일
백엔드

[BigData] Spark 개요 정리

Spark의 개요와 주요 구성요소, 장점을 정리한 글입니다. 대용량 데이터 처리에서 Pandas보다 Spark가 더 적합한 성능 사례도 비교했습니다.

#Spark#Pandas
74005분
최초로 공개된 Amazon S3 Tables 대해 개발팀에게 직접 묻다. (미공개 내용 포함)
데보션
· 2024년 12월 10일
기타

최초로 공개된 Amazon S3 Tables 대해 개발팀에게 직접 묻다. (미공개 내용 포함)

Amazon S3 Tables의 발표 내용과 서비스팀 확인 사항을 정리한 글입니다. 분석 워크로드 성능 향상, 자동 유지보수, 비용과 한계를 함께 살펴보았습니다.

#AWS#Apache Iceberg
33005분