Aurora PostgreSQL에서 한국어 하이브리드 검색 구현하기: pg_bigm + pgvector로 만드는 한국어 특화 RAG
16
AI 요약

이 글은 AI가 원문을 분석하여 핵심 내용을 요약한 것입니다.

이 게시물은 Aurora PostgreSQL에서 pg_bigm과 pgvector를 RRF로 결합해 한국어 특화 하이브리드 RAG 구현 방법을 소개합니다.

핵심

  • pg_bigm: 한국어 바이그램 기반 키워드 검색, 조사·어미 변형 및 복합어 처리에 강함
  • pgvector: Bedrock Titan 임베딩 기반 시맨틱 검색, 자연어 질의 및 동의어 대응에 강함

구현 요약

  • 데이터 청킹 → Bedrock 임베딩 → Aurora에 텍스트와 벡터 저장, pg_bigm GIN 인덱스 및 pgvector HNSW 인덱스 생성
  • 쿼리에서 키워드 추출과 임베딩 생성으로 각각 검색 수행 후 RRF(기본 가중치 0.4/0.6, k=60)로 순위 결합
  • 결과를 LLM에 컨텍스트로 제공해 최종 한국어 응답 생성

연관 게시글