한/글 문서 파일 형식: Python을 통한 HWPX 포맷 파싱하기 (1)
37
AI 요약

이 글은 AI가 원문을 분석하여 핵심 내용을 요약한 것입니다.

Python을 통한 HWPX 포맷 파싱

이 게시물은 한글 문서 파일 형식인 HWPX의 내부 구조를 KS X 6101 표준 문서와 실제 예제 코드를 바탕으로 분석하고, Python을 이용해 문서 데이터를 추출하여 Document 객체로 구조화하는 과정을 설명합니다.

주요 내용

  • ZIP 기반 XML 포맷인 HWPX 파일에서 메타정보, 커서 위치, 폰트 정보, 바이너리 데이터 목록 등을 추출하는 방법
  • Python 내장 라이브러리(zipfile, xml.etree.ElementTree)를 활용한 파일 읽기와 XML 파싱
  • Document 데이터 모델 설계 및 header.xml, settings.xml, content.hpf 파일에서 필요한 정보 추출
  • 문서 내부 요소(beginNum, refList, CaretPosition, manifest 등)와 그 의미에 대한 표준 문서 참조

후속 작업 안내

다음 글에서는 본문 내용이 담긴 섹션 파일 분석 및 단락, 텍스트, 표 추출 방법을 다룰 예정입니다.

연관 게시글