
6
AI 요약
이 글은 AI가 원문을 분석하여 핵심 내용을 요약한 것입니다.
이 게시물은 LLM이 모를 때 '모른다'고 말해야 하는 능력, 즉 abstention과 refusal 문제를 정리한 리뷰입니다.
핵심 요약
- 다룬 논문: AbstentionBench와 RefusalBench 기반 리뷰
- 정의·필요성: abstention = 모를 때 답하지 않기, 정확도와 별개 능력
- 발견1: 모델 스케일로는 abstention 개선되지 않음
- 발견2: reasoning 미세조정·RL 보상이 abstention 악화
- 발견3: 긴 reasoning token은 자신감 과잉 유도, RefusalBench 진단으로 detection vs categorization 분리 및 어려운 케이스의 'missing info' 쏠림 관찰
- 대응 제안: system prompt 응급처치, alignment·데이터·보상 설계로 abstention을 명시적 학습 목표화


