
76
AI 요약
이 글은 AI가 원문을 분석하여 핵심 내용을 요약한 것입니다.
GPU 가상화(MIG) 도입기
이 게시물은 토스증권에서 GPU 자원 낭비를 줄이고 효율적으로 활용하기 위해 Nvidia의 MIG(Multi-Instance GPU) 기술을 도입하고 운영한 경험을 공유합니다.GPU 활용 문제와 해결책
- 모든 ML 작업이 고성능 GPU를 필요로 하지 않아 자원 낭비 문제 발생
- 클라우드 활용, 혼합 GPU 운영, GPU 가상화 세 가지 방법의 장단점 분석
- 토스증권은 온프레미스 환경과 안정성, 비용 효율성 때문에 MIG 기반 GPU 가상화를 선택
MIG 도입 및 운영 절차
- GPU 설정과 MIG 활성화, GPU 인스턴스 및 컴퓨트 인스턴스 생성
- Kubernetes 환경에서 nvidia-device-plugin 재배포로 MIG 인식
- dcgm-exporter를 통한 MIG 환경별 GPU 사용률 모니터링 구성
결론
MIG는 단일 고성능 GPU를 여러 가상 GPU로 분할해 다양한 워크로드에 맞게 자원을 효율적으로 분배할 수 있는 실용적인 기술이며, 토스증권의 실제 사례와 구체적 설정 방법을 통해 도입 시 유의점과 운영 노하우를 제공한다.