EMNLP24 늦은 후기 2탄: CC 데이터로 LLM 사전학습 데이터셋을 만들어본 경험 및 NVIDIA 논문 리뷰
26
AI 요약

이 글은 AI가 원문을 분석하여 핵심 내용을 요약한 것입니다.

EMNLP24 후기: CC 데이터 기반 LLM 사전학습 데이터셋 구축과 NVIDIA 논문 리뷰

이 게시물은 SK텔레콤의 LLM 사전학습용 데이터 파이프라인 구축 경험과 2024년 EMNLP에서 발표된 NVIDIA 연구팀의 논문을 중심으로 웹 크롤링 데이터 활용과 품질 관리 전략을 공유합니다.

데이터 파이프라인 구축 주요 내용

  • PySpark와 Airflow를 활용한 CCNet 기반 대규모 데이터 처리
  • 품질 필터링: 위키백과 등 고품질 코퍼스 학습 모델로 퍼플렉서티 기준 노이즈 제거
  • 언어 식별: 단어 목록과 Transformer 기반 준지도 학습 모델 조합으로 한국어 선별
  • 중복 제거: Spark MinHashLSH 활용해 near-duplicate 문서 약 10% 제거

NVIDIA EMNLP 2024 논문 주요 시사점

  • 정확한 중복 제거(128비트 해시)와 퍼지 중복 제거(LSH 기반) 전략
  • 품질 필터링과 휴리스틱 결합으로 LLM 정확도 향상
  • 도메인 재샘플링(DSIR)으로 특정 도메인 강조 및 품질 개선
  • 문서 자동 라벨링으로 데이터 품질 및 도메인 분석
  • 품질 기반 세분화 샘플링 적용 시 언어 모델 평가 점수 향상

소회

저자는 초기 데이터 파이프라인 구축 시 겪은 어려움과 시행착오를 돌아보며, NVIDIA 논문이 이 과정을 체계적으로 분석하고 실무에 적용 가능한 전략을 제시한 점에 큰 의미를 둡니다.

연관 게시글