1
AI 요약
이 글은 AI가 원문을 분석하여 핵심 내용을 요약한 것입니다.
이 게시물은 채널톡 AI 팀이 RAG의 검색(리트리벌) 성능을 공정하게 평가하려고 자체 리트리벌 벤치마크를 만든 이유와 제작 과정을 정리한 니다.
ML 벤치마크는 평가 데이터/모델/메트릭으로 구성되며, 외부 벤치마크의 성능 상승이 도메인 성능 향상으로 직결되지는 않아 자체 평가가 필요하다고 설명합니다.
도큐먼트 기반으로 query 후보를 선별하고, vector database로 top-20 chunk 후보를 모은 뒤 (query, document) 쌍 형태로 데이터를 구성해 재레이블링 부담을 줄였다고 합니다.
Silver label은 LLM이 cue sentence를 추출해 만들고, 레이블링 스튜디오로 사람 검수 및 누락 보완을 진행했으며, 후처리로 비정상 query를 제거하고 청킹을 재실행했다고 소개합니다.
제작한 벤치마크로 hybrid search(BM25+sparse+dense 조합)가 기존 vector search보다 Hit@k/Recall@k/nDCG@k 전반에서 더 좋은 성능을 보였음을 제시합니다.
다음으로 최신 기술(Agent/TTS 등)에 맞는 벤치마크를 제작하고 평가 과정을 공개하겠다는 계획을 언급합니다.