LLM이 문학 번역 성능을 평가할 수 있을까?
70
AI 요약

이 글은 AI가 원문을 분석하여 핵심 내용을 요약한 것입니다.

LLM을 활용한 영어-한국어 문학 번역 평가 연구

이 게시물은 LLM을 사용해 문학 번역의 섬세한 뉘앙스를 평가하는 두 단계 평가 프레임워크(DA-MQM과 VERSE)를 소개합니다.

평가 프레임워크

  • DA-MQM: 어휘 선택, 경어법, 구문 및 문법, 내용 정확도 등 네 가지 주요 오류 유형을 세분화하여 평가
  • VERSE: GPT-4가 생성한 문학적 측면 검증 질문을 기반으로 번역의 문학적 품질을 평가

연구 결과 및 한계

  • LLM 기반 평가가 기존 지표보다 인간 평가와 높은 상관관계를 보임
  • 하지만 LLM이 문화적 맥락과 미묘한 언어 뉘앙스를 완벽히 이해하지 못하며, 인간 평가자의 합의 수준에 미치지 못함
  • LLM 평가자가 전문 인간 번역가보다 다른 LLM 번역을 선호하는 편향 문제 존재

결론

LLM은 문학 번역 평가에 유용하지만 완전한 대체는 어려우며, 향후 다양한 언어와 문화적 맥락을 반영하는 연구가 필요합니다.

연관 게시글