
27
AI 요약
이 글은 AI가 원문을 분석하여 핵심 내용을 요약한 것입니다.
이 게시물은 AWS Inferentia와 Trainium 환경에서 LLM 모델 양자화 최적화 기법을 소개합니다.
요약
- NxD Inference에서 int8, fp8(fp8e4m3 / fp8e5m2) 양자화와 KV cache fp8 지원
- per_tensor_symmetric / per_channel_symmetric 스케일 옵션과 modules_to_not_convert를 통한 선택적 양자화 가능
- NetsPresso로 모듈별 양자화 민감도 분석하여 LayerNorm, Embedding, Self-Attention 등 민감 모듈 제외하는 전략
- 전체 int8 양자화로 모델 크기 약 45% 감소·메모리 35% 절감, 정확도는 약 -20.8% 하락
- 선택적 양자화로 정확도 손실을 -8.3%로 완화, Autoround 기반 fake-quantization과 결합 시 손실을 -4.2%까지 감소
- fake-quantization을 통해 GPU 기반 양자화 기법을 NxD 환경에서 호환 가능하도록 변환하는 접근

