
15
AI 요약
이 글은 AI가 원문을 분석하여 핵심 내용을 요약한 것입니다.
HTML 문서의 실시간 본문 추출기
이 게시물은 에이닷의 LLM search 시스템과 HTML 본문 추출기의 개발 및 성능에 대해 설명합니다.LLM Search와 기존 LLM의 차이점
- LLM search는 GPT-4o-mini와 실시간 웹 검색을 결합하여 최신 정보를 반영
- 기존 LLM은 사전 학습 데이터 기반으로 한계 존재
HTML 본문 추출기 주요 특징
- 1초 이내 본문 추출 완료를 목표
- 노이즈 제거와 정보 손실 최소화
- entropy 기반 트리구조 분석으로 본문 영역 추출
- CSS 필터링과 앙상블 방식 도입
- 기존 trafilatura 대비 안정적이며 정보 손실 없는 성능
성능 및 실험 결과
- 1856개 URL 테스트에서 평균 10% 노이즈 제거, 본문 정보 유실 없음 (recall 100%)
- 속도 개선을 위한 메모리제이션 적용으로 30배 빠름
- 통계적 분석과 자카드 유사도 평가로 본문 추출 신뢰도 확보