HTML 문서의 실시간 본문 추출기: 노이즈 적은 콘텐츠 수집의 비밀
15
AI 요약

이 글은 AI가 원문을 분석하여 핵심 내용을 요약한 것입니다.

HTML 문서의 실시간 본문 추출기

이 게시물은 에이닷의 LLM search 시스템과 HTML 본문 추출기의 개발 및 성능에 대해 설명합니다.

LLM Search와 기존 LLM의 차이점

  • LLM search는 GPT-4o-mini와 실시간 웹 검색을 결합하여 최신 정보를 반영
  • 기존 LLM은 사전 학습 데이터 기반으로 한계 존재

HTML 본문 추출기 주요 특징

  • 1초 이내 본문 추출 완료를 목표
  • 노이즈 제거와 정보 손실 최소화
  • entropy 기반 트리구조 분석으로 본문 영역 추출
  • CSS 필터링과 앙상블 방식 도입
  • 기존 trafilatura 대비 안정적이며 정보 손실 없는 성능

성능 및 실험 결과

  • 1856개 URL 테스트에서 평균 10% 노이즈 제거, 본문 정보 유실 없음 (recall 100%)
  • 속도 개선을 위한 메모리제이션 적용으로 30배 빠름
  • 통계적 분석과 자카드 유사도 평가로 본문 추출 신뢰도 확보

연관 게시글