2부: 정책을 따르는 평가자, LLM-as-a-Judge
LLM을 평가자로 만들어 설명 생성의 품질을 자동화하고 디버깅과 데이터 정제에 활용했습니다. 체크리스트 분해, 크리틱 구조화, 리마인더 도입으로 인간 평가자와 약 84%의 일치율을 달성했습니다.
LLM을 평가자로 만들어 설명 생성의 품질을 자동화하고 디버깅과 데이터 정제에 활용했습니다. 체크리스트 분해, 크리틱 구조화, 리마인더 도입으로 인간 평가자와 약 84%의 일치율을 달성했습니다.
정답 데이터 없는 설명 생성 문제에서 정책 중심 이터레이션으로 설명 품질을 개선했습니다. PM과 엔지니어의 빠른 pass/fail 평가와 critique 반복으로 정책을 수렴하고 LLM Judge로 평가 자동화합니다.
정량적 프로파일링을 바탕으로 디코딩 필터링, Top-K 힙 최적화, TensorBuffer 개선, 스레드·인터프리터 병렬화로 파이프라인 최적화를 수행했습니다. 그 결과 평균 응답 시간이 약 37% 단축되고 처리량이 약 530% 향상되었습니다.
비즈니스 문제를 최적화 관점의 완화(relaxation)로 재정의해 AI 문제로 해결하는 방법을 소개했습니다. 명시적 가정 설정과 A/B 테스트로 가정 타당성 검증 및 필요 시 문제 재정의해야 합니다.
실제 비즈니스 목표와 일치하는 ML 모델 타겟 지표를 설계하는 과정과 confounder 문제를 극복하는 학습 방식을 소개합니다. 오프라인 평가와 온라인 A/B 테스트를 통해 모델의 전환율 향상 효과를 검증하였습니다.
아자르는 추천 알고리즘 실험의 신속한 이터레이션을 위해 Python DSL과 MECE 검증 기능을 도입한 Policy Engine을 개발했습니다. 이 시스템은 실험 설정의 복잡성을 줄이고, 실험 담당자가 독립적으로 실험을 수행할 수 있도록 지원합니다.
아자르는 1:1 비디오 채팅 기능의 회귀 테스트 자동화를 위해 크로스 플랫폼 병렬 실행과 매칭 세그먼트 기능을 도입해 테스트 효율을 크게 개선했습니다. 자동화는 테스트 시간과 인력 부담을 대폭 줄이고, QA 업무의 품질 향상에 기여하고 있습니다.
Azar는 Apache Flink의 KeyedProcessFunction을 활용해 복잡한 실시간 이벤트 조합과 무중단 배포를 구현했습니다. Redis 기반 중복 제거로 Exactly Once 처리도 보장해 AI 추천 시스템에 신뢰성 높은 데이터를 제공합니다.
Hyperconnect는 ScyllaDB에 RAID 기반 Super Disk를 도입하여 노드 복구 시간을 최대 20배 단축하고 데이터 안정성을 강화했습니다. Kubernetes 환경에서 Windmill 자동화 도구를 활용해 운영 효율성과 장애 대응 유연성을 크게 향상시켰습니다.
이 글에서는 Apache Flink 어플리케이션의 end-to-end latency를 개선하기 위해 병목을 찾아내는 방법을 설명합니다. 두 가지 주요 단계인 Application Level과 Operator Level을 통해 성능 개선 포인트를 도출합니다.