Spark 8편: Rest API를 통한 데이터 수집
42
AI 요약

이 글은 AI가 원문을 분석하여 핵심 내용을 요약한 것입니다.

Spark 8편: Rest API를 통한 데이터 수집

이 게시물은 Spark를 사용하여 Rest API를 통해 데이터를 수집하는 방법에 대해 설명합니다.

개요

고객사 프로젝트에서 외부 시스템의 반 정형 데이터를 수집할 때 Spark의 병렬 처리 기능을 활용하는 것이 중요합니다.

테스트 개요

jsonplaceholder.typicode.com 사이트를 통해 REST API 테스트를 진행하며, 데이터 수집 방법으로는 Python requests 라이브러리와 Spark UDF를 활용한 두 가지 케이스를 다룹니다.
  • Case 1: Python requests - 단일 스레드로 동작하여 성능 저하 가능
  • Case 2: Spark UDF - 병렬 처리 가능하지만 코드 복잡도 증가

결론

Spark의 장점을 최대한 활용하는 것이 중요하며, 다양한 커넥터와 추가 기능을 통해 데이터 수집 시 모범사례를 찾는 것을 권장합니다.

연관 게시글