생성형 AI 기반 실시간 검색 결과 재순위화 1편 - 서빙 시스템 아키텍처
6
AI 요약

이 글은 AI가 원문을 분석하여 핵심 내용을 요약한 것입니다.

생성형 AI 기반 실시간 검색 결과 재순위화 서빙 시스템 아키텍처

이 게시물은 네이버 Personalized Platform 조직이 대규모 트래픽을 처리하는 통합검색 시스템에서 생성형 AI와 LLM을 활용해 실시간으로 검색 결과를 재순위화하는 서빙 시스템 아키텍처 구축 경험을 다룹니다.

서빙 시스템 요구 사항과 도전 과제

  • MSA 구조에서 응답 시간 SLO 달성
  • 고부하 상황에서 서버 보호 및 안정성 유지
  • 빠른 응답 시간 내 검색 결과 반환

문제 해결 방향

  • 검색 요청량 감소를 위한 원격 캐시(Nxcache) 활용
  • 검색 서버 병렬 비동기 호출 도입으로 응답 시간 최적화
  • Cache-Control 헤더를 이용한 중복 요청 제어
  • OpenTelemetry 도입으로 검색 서버 대기 시간 모니터링
  • 고부하 상황 대응을 위한 디그러데이션 및 스로틀링 모드 설계

결론

이 시스템 아키텍처 최적화를 통해 재순위화 서버로 인한 추가 검색 서버 부하를 줄이고, 실시간 서비스 요구 사항을 만족하는 안정적이고 효율적인 검색 결과 제공이 가능해졌습니다. LLM 서빙 관점은 후속 글에서 다룰 예정입니다.

연관 게시글