낯선 오타와 싸워서 이기고 싶은 마음
1
AI 요약
이 글은 AI가 원문을 분석하여 핵심 내용을 요약한 것입니다.
이 게시물은 오타보정에 딥러닝 번역모델을 도입한 과정과 결과를 정리합니다.
문제와 목표
- 검색 로그 기반 오타 집계는 정확하지만 커버리지 낮음
- 검색에서의 오타 대응 강화로 고객의 상품 탐색 효율 향상
검토한 대안
- 검색어 임베딩 다중 질의, 상품 임베딩 벡터검색, 오타-정타 번역모델 비교
- 리소스 제약과 운영성을 고려해 번역모델 선택
데이터와 학습
- 정타 선별 후 규칙적 오타 생성으로 대규모 오타-정타 쌍 확보
- 데이터 증강 및 케이스별 띄어쓰기 패턴 일반화 작업 수행
안전장치
- multitask learning으로 문맥 정보 보강
- 편집거리 기반 필터링으로 hallucination 방지
결과와 향후 과제
- 검색 실패율 0.3%p 감소, 보정된 결과의 CTR 유지
- 벡터검색 및 생성형 검색 도입 검토로 추가 개선 계획
