로봇 ML 모델의 경량화 #1: 훈련 후 양자화
3
AI 요약

이 글은 AI가 원문을 분석하여 핵심 내용을 요약한 것입니다.

로봇 ML 모델의 경량화: 훈련 후 양자화

이 게시물은 고성능 서버 환경에서 개발된 머신러닝(ML) 모델을 실외 자율주행 로봇과 같은 엣지 디바이스에 배포하기 위한 경량화 방법 중 훈련 후 양자화(Post-Training Quantization, PTQ)에 대해 설명합니다.

고성능 서버와 엣지 디바이스의 차이점

  • 서버 GPU는 크고 전력 소모가 크지만 엣지 디바이스는 내구성, 전력 효율, 크기 제한 등 추가 요구사항이 있음
  • 우아한형제들 로보틱스LAB은 NVIDIA Jetson 플랫폼을 사용하여 엣지 환경에서 ML 모델을 구동

양자화의 원리와 과정

  • 모델의 가중치와 출력 텐서의 데이터 타입을 FP32 등에서 INT8, INT4 같은 낮은 정밀도로 변환
  • 정수 연산을 사용해 추론 속도 향상 및 모델 크기 감소 효과
  • 캘리브레이션 과정을 통해 최적 스케일과 임곗값을 찾아 정확도 손실 최소화
  • PTQ는 추가 훈련 없이 소량의 데이터만으로 수행 가능하며, 정확도 손실이 크면 양자화 인식 훈련(QAT)을 적용

TensorRT와 Polygraphy를 이용한 최적화

  • NVIDIA TensorRT를 활용하여 모델을 최적화하고 추론 속도를 크게 개선
  • PyTorch 모델을 ONNX 변환 후 TensorRT 엔진으로 변환하거나 TorchScript와 Torch-TensorRT를 사용하는 두 가지 방법 소개
  • Polygraphy 도구를 통해 캘리브레이션과 양자화 과정을 간편하게 수행 가능