생성형 AI 기반 실시간 검색 결과 재순위화 1편 - 서빙 시스템 아키텍처
3
AI 요약

이 글은 AI가 원문을 분석하여 핵심 내용을 요약한 것입니다.

생성형 AI 기반 실시간 검색 결과 재순위화 서빙 시스템 아키텍처

이 게시물은 네이버 Personalized Platform 조직이 대규모 트래픽을 처리하는 통합검색 시스템에서 생성형 AI와 LLM을 활용해 실시간으로 검색 결과를 재순위화하는 서빙 시스템 아키텍처 구축 경험을 다룹니다.

서빙 시스템 요구 사항과 도전 과제

  • MSA 구조에서 응답 시간 SLO 달성
  • 고부하 상황에서 서버 보호 및 안정성 유지
  • 빠른 응답 시간 내 검색 결과 반환

문제 해결 방향

  • 검색 요청량 감소를 위한 원격 캐시(Nxcache) 활용
  • 검색 서버 병렬 비동기 호출 도입으로 응답 시간 최적화
  • Cache-Control 헤더를 이용한 중복 요청 제어
  • OpenTelemetry 도입으로 검색 서버 대기 시간 모니터링
  • 고부하 상황 대응을 위한 디그러데이션 및 스로틀링 모드 설계

결론

이 시스템 아키텍처 최적화를 통해 재순위화 서버로 인한 추가 검색 서버 부하를 줄이고, 실시간 서비스 요구 사항을 만족하는 안정적이고 효율적인 검색 결과 제공이 가능해졌습니다. LLM 서빙 관점은 후속 글에서 다룰 예정입니다.