코드 생성 및 Agentic RAG 작업 중심의 도메인 특화 LLM 비교 평가 [전편] - QueryPie | Velopers

코드 생성 및 Agentic RAG 작업 중심의 도메인 특화 LLM 비교 평가 [전편]

2026년 2월 13일

10

AI 요약

이 글은 AI가 원문을 분석하여 핵심 내용을 요약한 것입니다.

이 게시물은 일본 급여 시스템 파이프라인을 대상으로 13개 LLM 구성의 코드 생성 및 Agentic RAG 성능을 비교한 연구의 전편입니다.

핵심 내용

AI Check의 3단계 파이프라인(NL→의사코드, MFID 매핑 Agentic RAG, SQL 변환) 설명
NL to Pseudocode 에이전트와 MFID Mapping 에이전트를 중심으로 Claude·Gemini·GPT 13개 모델 비교 평가
평가 지표로 BLEU/ROUGE-L/BERT-F1, LLM-as-a-Judge(구문·의미·조건·구조 4차원), Recall@K·MRR 사용
Thinking/Reasoning 모드는 작업별로 상반된 영향 관찰(예: Claude는 코드생성에서 소폭 향상, Agentic RAG에서 성능 저하 사례)
빈 응답률 등 안정성 지표 포함 평가와 비용-품질 트레이드오프 분석, 단계별 혼합 모델 구성으로 비용 최대 60% 절감 제안

연관 게시글

코드 생성 및 Agentic RAG 작업 중심의 특정 도메인을 위한 LLM 비교 평가【후편】

코드 생성 및 Agentic RAG 작업 중심의 특정 도메인을 위한 LLM 비교 평가【후편】

QueryPie

QueryPie • 2026년 2월 13일

코딩 에이전트를 활용한 취약점 수집·생성 자동화로 가드레일 모델 고도화

코딩 에이전트를 활용한 취약점 수집·생성 자동화로 가드레일 모델 고도화

라인 • 2026년 3월 25일

SSG.COM 사내 Agent 개발기

SSG.COM 사내 Agent 개발기

SSG.COM

SSG.COM • 2025년 7월 31일