VLM, LLM을 사용하여 멀티모달 학습 데이터 제작하기
23
AI 요약

이 글은 AI가 원문을 분석하여 핵심 내용을 요약한 것입니다.

VLM과 LLM을 활용한 멀티모달 학습 데이터 제작

이 게시물은 SSG AI팀이 VLM(Vision Language Models)과 LLM(Large Language Models)을 활용해 멀티모달 학습 데이터를 효율적으로 생성한 경험을 공유합니다.

SSG Lens 멀티모달 검색 서비스

  • 이미지와 텍스트를 결합해 상품 검색 정확도 향상
  • 가구 카테고리의 상세하고 풍부한 라벨링 필요

데이터 생성 과정과 도전 과제

  • OCR 기술로 상품 상세 정보를 추출
  • VLM과 LLM을 활용해 이미지-텍스트 정합성 검증 및 텍스트 요약
  • 프롬프트 엔지니어링을 통한 모델 응답 최적화
  • 후처리와 평가로 모델 추론 오류 및 불일치 문제 해결

최종 결과 및 시사점

  • 비용과 시간을 절감하며 고품질 학습 데이터 생성 가능
  • 모델 응답 신뢰성 확보를 위한 지속적인 후처리와 평가 필요

연관 게시글