
36
AI 요약
이 글은 AI가 원문을 분석하여 핵심 내용을 요약한 것입니다.
Python을 활용한 HWP 파일 포맷 파싱
이 게시물은 HWP 포맷의 실제 예제 분석을 통해 문서 구조와 데이터 파싱 방식을 설명합니다.주요 내용
- HWP 파일의 이진 구조인 Compound File Structure 이해 및 olefile, zlib 라이브러리 활용
- DocInfo 스트림에서 레코드 기반 데이터 읽기 및 압축 해제 과정
- 레코드 헤더(TagID, Level, Size)의 구조와 이를 바탕으로 문서 속성, ID 매핑, 바이너리 데이터, 글꼴 정보 파싱 방법
- 가변 길이 문자열 처리와 레코드별 데이터 읽기 및 건너뛰기 로직 구현