
42
AI 요약
이 글은 AI가 원문을 분석하여 핵심 내용을 요약한 것입니다.
Spark 8편: Rest API를 통한 데이터 수집
이 게시물은 Spark를 사용하여 Rest API를 통해 데이터를 수집하는 방법에 대해 설명합니다.개요
고객사 프로젝트에서 외부 시스템의 반 정형 데이터를 수집할 때 Spark의 병렬 처리 기능을 활용하는 것이 중요합니다.테스트 개요
jsonplaceholder.typicode.com 사이트를 통해 REST API 테스트를 진행하며, 데이터 수집 방법으로는 Python requests 라이브러리와 Spark UDF를 활용한 두 가지 케이스를 다룹니다.- Case 1: Python requests - 단일 스레드로 동작하여 성능 저하 가능
- Case 2: Spark UDF - 병렬 처리 가능하지만 코드 복잡도 증가