레거시 GPU에 날개 달기: 극한의 서빙 최적화 가이드

레거시 GPU에 날개 달기: 극한의 서빙 최적화 가이드
BERT 기반 SPLADE 모델의 대규모 실시간 서빙 최적화 방법을 소개했습니다. FlashTokenizer와 전/후처리, 추론 최적화로 레거시 GPU 성능을 끌어올린 사례입니다.
#BERT#LLM
91005분

BERT 기반 SPLADE 모델의 대규모 실시간 서빙 최적화 방법을 소개했습니다. FlashTokenizer와 전/후처리, 추론 최적화로 레거시 GPU 성능을 끌어올린 사례입니다.


텍스트를 숫자와 벡터로 표현하는 여러 방법과 문장 임베딩 기반 의미 검색을 정리했습니다. 또한 BERT, FAISS, 하이브리드 검색의 구조와 활용 방향을 소개했습니다.


SSG.COM 검색 실패를 줄이기 위해 BERT 계열 모델과 벡터 DB 기반 매칭 방식을 도입했습니다. 적용 후 전체 검색 실패의 46%를 성공으로 전환했고 정확도 75%를 달성했습니다.

QueryPie의 AI 분류기로 개인정보를 문맥 기반으로 식별하고 규제 준수를 지원하는 방법을 소개했습니다. 정규식 기반 한계를 보완하며 정확도와 운영 효율을 높인 사례를 설명했습니다.

뉴스 정보를 이용해 고용률 변화를 예측하는 멀티모달 모델 개발 과정을 소개했습니다. 이번 글에서는 고용 기사 분류와 감정 분석을 위한 KoELECTRA 기반 설계를 다뤘습니다.