
46
AI 요약
이 글은 AI가 원문을 분석하여 핵심 내용을 요약한 것입니다.
Python을 통한 HWPX 포맷 본문 데이터 추출
이 게시물은 HWPX 문서의 본문 데이터를 추출하는 과정을 상세히 설명합니다.문서 구조와 참조
- 본문은 본문-구역-문단 구조로 이루어지며, 각 구역은 별도 XML 파일(section0.xml 등)로 저장
- header.xml의 secCnt 속성으로 구역 개수를 확인
- 문단(p 요소) 내 run 요소에 텍스트, 표, 그림 등 콘텐츠 포함
데이터 모델 설계 및 파싱 과정
- 문서, 구역, 문단, 컨트롤(Ctrl) 요소를 데이터 클래스로 설계
- header.xml에서 글자 모양(charPr), 문단 모양(paraPr) 등 서식 정보 추출
- section.xml에서 본문 데이터와 서식 ID 참조 연결
- Python xml.etree.ElementTree 라이브러리로 XML 요소를 순회하며 데이터 추출 및 모델에 저장
서식과 본문 내용의 연결
- run 요소의 charPrIDRef와 p 요소의 paraPrIDRef가 header.xml의 서식 정보와 연결
- 이를 통해 각 텍스트에 적용된 서식을 확인 가능
예제 코드 및 실제 문서 사례
- 본문 및 서식 데이터 파싱 예제 코드 제공
- 샘플 문서 분석을 통해 파싱된 데이터가 실제 문서 내용과 어떻게 매핑되는지 설명