채널 AI팀은 왜 새로운 ML 모델 벤치마크가 필요로 했을까?

AI

채널 AI팀은 왜 새로운 ML 모델 벤치마크가 필요로 했을까?

채널톡

채널톡2025년 12월 23일

두줄요약

AI 모델 성능 비교를 위해 상담 도메인에 맞는 리트리벌 벤치마크를 직접 제작했습니다. 벡터 검색과 BM25를 결합한 하이브리드 검색의 개선 효과도 정량적으로 확인했습니다.

핵심 내용

AI 모델 성능 비교·의사결정을 위한 벤치마크의 필요성 설명
외부 벤치마크만으로는 상담 도메인 성능을 보장하기 어려워 자체 평가 데이터 필요성 제기
RAG 검색 성능을 평가하는 리트리벌 벤치마크 제작 과정과 활용 사례 소개

구조와 흐름

사용자 쿼리 선별 후 관련 문서를 후보군으로 수집
문서 단위로 먼저 데이터 구성해 청킹 전략 변경에도 재활용 가능하게 설계
LLM으로 silver label 생성 후 사람이 보정하고 후처리로 정제

성능/운영 포인트

BM25와 벡터 검색을 결합한 hybrid search 성능을 벤치마크로 검증
Hit@k, Recall@k, nDCG@k로 검색 품질을 정량 평가
회사명·내부 키워드처럼 의미론적 검색이 약한 경우 sparse retrieval 보완 효과 확인

적용해볼 점

도메인 특화 평가 데이터와 메트릭을 직접 구축해 모델 선택 기준 마련
검색 전략 변경 가능성을 고려해 chunk보다 document 기준으로 데이터 설계
최신 LLM 변화에 맞춰 Agent, TTS 등 새로운 벤치마크 확장 필요

댓글 0개

댓글을 작성하려면 로그인이 필요합니다.

댓글을 불러오는 중...