코드 생성 및 Agentic RAG 작업 중심의 도메인 특화 LLM 비교 평가 [전편]
0
AI 요약

이 글은 AI가 원문을 분석하여 핵심 내용을 요약한 것입니다.

이 게시물은 일본 급여 시스템 파이프라인을 대상으로 13개 LLM 구성의 코드 생성 및 Agentic RAG 성능을 비교한 연구의 전편입니다.

핵심 내용

  • AI Check의 3단계 파이프라인(NL→의사코드, MFID 매핑 Agentic RAG, SQL 변환) 설명
  • NL to Pseudocode 에이전트와 MFID Mapping 에이전트를 중심으로 Claude·Gemini·GPT 13개 모델 비교 평가
  • 평가 지표로 BLEU/ROUGE-L/BERT-F1, LLM-as-a-Judge(구문·의미·조건·구조 4차원), Recall@K·MRR 사용
  • Thinking/Reasoning 모드는 작업별로 상반된 영향 관찰(예: Claude는 코드생성에서 소폭 향상, Agentic RAG에서 성능 저하 사례)
  • 빈 응답률 등 안정성 지표 포함 평가와 비용-품질 트레이드오프 분석, 단계별 혼합 모델 구성으로 비용 최대 60% 절감 제안

연관 게시글