AI 리뷰를 신뢰할 수 있을까요?
8
AI 요약
이 글은 AI가 원문을 분석하여 핵심 내용을 요약한 것입니다.
이 게시물은 AI 코드 리뷰의 품질을 수치화하고 개선한 과정 기록입니다.
핵심 개요
- 문제: AI 생성 코드의 이슈 증가와 리뷰 신뢰성 부족
- 방법: Hotfix로부터 원본 PR 역추적해 PR diff 기반 벤치마크 구성
- 측정: GPT 4o mini를 Judge로 사용해 AI 리뷰 자동 채점
- 실험: 서브에이전트 도입은 탐지율 저하와 비용 증가로 실패
- 개선: 반영률(adopted/engaged/noised) 지표 도입, 모델 A/B 테스트 후 GPT 5.2 Codex 채택, PR 템플릿·질문 뱃지·자동 resolve로 반영률 63% 달성


