한/글 문서 파일 형식: Python을 통한 HWPX 포맷 파싱하기 (2)
46
AI 요약

이 글은 AI가 원문을 분석하여 핵심 내용을 요약한 것입니다.

Python을 통한 HWPX 포맷 본문 데이터 추출

이 게시물은 HWPX 문서의 본문 데이터를 추출하는 과정을 상세히 설명합니다.

문서 구조와 참조

  • 본문은 본문-구역-문단 구조로 이루어지며, 각 구역은 별도 XML 파일(section0.xml 등)로 저장
  • header.xml의 secCnt 속성으로 구역 개수를 확인
  • 문단(p 요소) 내 run 요소에 텍스트, 표, 그림 등 콘텐츠 포함

데이터 모델 설계 및 파싱 과정

  • 문서, 구역, 문단, 컨트롤(Ctrl) 요소를 데이터 클래스로 설계
  • header.xml에서 글자 모양(charPr), 문단 모양(paraPr) 등 서식 정보 추출
  • section.xml에서 본문 데이터와 서식 ID 참조 연결
  • Python xml.etree.ElementTree 라이브러리로 XML 요소를 순회하며 데이터 추출 및 모델에 저장

서식과 본문 내용의 연결

  • run 요소의 charPrIDRef와 p 요소의 paraPrIDRef가 header.xml의 서식 정보와 연결
  • 이를 통해 각 텍스트에 적용된 서식을 확인 가능

예제 코드 및 실제 문서 사례

  • 본문 및 서식 데이터 파싱 예제 코드 제공
  • 샘플 문서 분석을 통해 파싱된 데이터가 실제 문서 내용과 어떻게 매핑되는지 설명

연관 게시글