LINE 서비스의 대규모 광고 데이터를 처리하기 위한 Spark on Kubernetes 적용기 - 라인 | Velopers

LINE 서비스의 대규모 광고 데이터를 처리하기 위한 Spark on Kubernetes 적용기

2026년 3월 31일

87

AI 요약

이 글은 AI가 원문을 분석하여 핵심 내용을 요약한 것입니다.

이 게시물은 LINE Ads가 대규모 광고 데이터를 처리하기 위해 Spark on Kubernetes를 도입한 경험을 공유하는 글입니다.

도입 배경

Hadoop/YARN의 자원 결합으로 인한 성능 저하와 비용 비효율
Spark on Kubernetes로 인프라 독립성 및 컨테이너 기반 유연성 확보

시스템 구성

배포: GitHub Actions와 ArgoCD로 CI/CD 구성
컴퓨팅: Spark Operator와 Apache YuniKorn으로 갱 스케줄링 및 자원 관리
스토리지: Kafka로 실시간 처리, HDFS로 장기 분석 데이터 저장

트러블슈팅

메모리 오버헤드로 인한 OOM 문제는 executor memoryOverhead 증량으로 대응
파드/노드 실패 시 캐시 데이터 소실과 OOM 처리에 따른 잡 실패 케이스 정리

성과

스트리밍 성능 226% 향상 및 컴퓨팅 비용 40% 이상 절감
다양한 Spark 버전과 의존성 환경에서 연산 유연성 확보

연관 게시글

쿠버네티스 네이티브 워크플로를 이용한 대용량 스트리밍 파이프라인 검증 자동화 - 1편

쿠버네티스 네이티브 워크플로를 이용한 대용량 스트리밍 파이프라인 검증 자동화 - 1편

라인 • 2024년 3월 21일

Spark on Kubernetes로 가자!

Spark on Kubernetes로 가자!

뱅크샐러드

뱅크샐러드 • 2023년 1월 5일

Spark Connect on Kubernetes #1: 견고한 Spark Connect 만들기

Spark Connect on Kubernetes #1: 견고한 Spark Connect 만들기

토스 • 2026년 6월 19일