목록 보기
채널 AI팀은 왜 새로운 ML 모델 벤치마크가 필요로 했을까?
AI

채널 AI팀은 왜 새로운 ML 모델 벤치마크가 필요로 했을까?

채널톡
채널톡
2025년 12월 23일

두줄요약

채널 AI팀이 RAG 검색 성능을 평가하기 위해 자체 리트리벌 벤치마크를 만든 과정을 소개했습니다. 외부 벤치마크 한계를 보완하고 hybrid search 성능 개선도 확인했습니다.

핵심 내용

  • ML 모델 성능 비교와 의사 결정을 위한 벤치마크의 필요성 정리
  • 외부 벤치마크로는 상담 도메인 성능을 충분히 판단하기 어려워 자체 벤치마크 제작
  • RAG 검색 성능 평가를 위해 query, document, cue sentence 기반 리트리벌 데이터셋 구축
  • hybrid search가 vector search와 BM25보다 더 나은 결과를 보여 적용 가능성 확인

구조와 흐름

  • 사용자 자주 묻는 쿼리 선별
  • query별 후보 문서 검색 후 document 단위로 데이터 구성
  • LLM으로 silver label 생성 후 사람 검수와 후처리 진행

선택 이유

  • chunking 전략 변화에도 재사용 가능한 데이터셋 필요
  • 도메인 특화 평가 데이터로 실제 성능 판단 필요

성능/운영 포인트

  • Hit@k, Recall@k, nDCG@k로 검색 품질 평가
  • 키워드성 회사명·내부 용어 검색에서 hybrid search 강점 확인

댓글 0

댓글을 작성하려면 로그인이 필요합니다.

댓글을 불러오는 중...