
26
AI 요약
이 글은 AI가 원문을 분석하여 핵심 내용을 요약한 것입니다.
EMNLP24 후기: CC 데이터 기반 LLM 사전학습 데이터셋 구축과 NVIDIA 논문 리뷰
이 게시물은 SK텔레콤의 LLM 사전학습용 데이터 파이프라인 구축 경험과 2024년 EMNLP에서 발표된 NVIDIA 연구팀의 논문을 중심으로 웹 크롤링 데이터 활용과 품질 관리 전략을 공유합니다.데이터 파이프라인 구축 주요 내용
- PySpark와 Airflow를 활용한 CCNet 기반 대규모 데이터 처리
- 품질 필터링: 위키백과 등 고품질 코퍼스 학습 모델로 퍼플렉서티 기준 노이즈 제거
- 언어 식별: 단어 목록과 Transformer 기반 준지도 학습 모델 조합으로 한국어 선별
- 중복 제거: Spark MinHashLSH 활용해 near-duplicate 문서 약 10% 제거
NVIDIA EMNLP 2024 논문 주요 시사점
- 정확한 중복 제거(128비트 해시)와 퍼지 중복 제거(LSH 기반) 전략
- 품질 필터링과 휴리스틱 결합으로 LLM 정확도 향상
- 도메인 재샘플링(DSIR)으로 특정 도메인 강조 및 품질 개선
- 문서 자동 라벨링으로 데이터 품질 및 도메인 분석
- 품질 기반 세분화 샘플링 적용 시 언어 모델 평가 점수 향상