한/글 문서 파일 형식: Python을 통한 HWPX 포맷 파싱하기 (2) - 한글과컴퓨터 | Velopers

한/글 문서 파일 형식: Python을 통한 HWPX 포맷 파싱하기 (2)

2025년 9월 29일

108

AI 요약

이 글은 AI가 원문을 분석하여 핵심 내용을 요약한 것입니다.

Python을 통한 HWPX 포맷 본문 데이터 추출

이 게시물은 HWPX 문서의 본문 데이터를 추출하는 과정을 상세히 설명합니다.

문서 구조와 참조

본문은 본문-구역-문단 구조로 이루어지며, 각 구역은 별도 XML 파일(section0.xml 등)로 저장
header.xml의 secCnt 속성으로 구역 개수를 확인
문단(p 요소) 내 run 요소에 텍스트, 표, 그림 등 콘텐츠 포함

데이터 모델 설계 및 파싱 과정

문서, 구역, 문단, 컨트롤(Ctrl) 요소를 데이터 클래스로 설계
header.xml에서 글자 모양(charPr), 문단 모양(paraPr) 등 서식 정보 추출
section.xml에서 본문 데이터와 서식 ID 참조 연결
Python xml.etree.ElementTree 라이브러리로 XML 요소를 순회하며 데이터 추출 및 모델에 저장

서식과 본문 내용의 연결

run 요소의 charPrIDRef와 p 요소의 paraPrIDRef가 header.xml의 서식 정보와 연결
이를 통해 각 텍스트에 적용된 서식을 확인 가능

예제 코드 및 실제 문서 사례

본문 및 서식 데이터 파싱 예제 코드 제공
샘플 문서 분석을 통해 파싱된 데이터가 실제 문서 내용과 어떻게 매핑되는지 설명

연관 게시글

한/글 문서 파일 형식: Python을 통한 HWPX 포맷 파싱하기 (1)

한/글 문서 파일 형식: Python을 통한 HWPX 포맷 파싱하기 (1)

한글과컴퓨터

한글과컴퓨터 • 2025년 6월 18일

한/글 문서 파일 형식: Python을 통한 HWP 포맷 파싱하기 (2)

한/글 문서 파일 형식: Python을 통한 HWP 포맷 파싱하기 (2)

한글과컴퓨터

한글과컴퓨터 • 2025년 9월 29일

한/글 문서 파일 형식 : HWPX 포맷 구조 살펴보기

한/글 문서 파일 형식 : HWPX 포맷 구조 살펴보기

한글과컴퓨터

한글과컴퓨터 • 2025년 2월 26일