Amazon EC2 G5/G6 인스턴스에서 GPU Tensor Parallelism으로 비용 효과적으로 LLM 서빙하기

AI

Amazon EC2 G5/G6 인스턴스에서 GPU Tensor Parallelism으로 비용 효과적으로 LLM 서빙하기

AWS

AWS2026년 5월 26일

두줄요약

vLLM Tensor Parallelism으로 G5/G6의 24GB GPU 여러 장에 LLM을 분산 서빙하는 방법을 설명했습니다. 벤치마크에서 TP=4는 응답 속도와 처리량을 크게 개선했으며, 비용 효율적인 대안으로 제시했습니다.

문제 상황

32B~70B급 LLM은 BF16 기준 64GB~140GB 수준의 메모리를 요구해 단일 A10G/L4 24GB GPU에 올리기 어려운 상황
H100/H200 기반 대형 GPU는 수급이 쉽지 않아, 비용과 확보 난이도 측면의 제약이 큰 상황

해결 방법

vLLM의 Tensor Parallelism으로 모델 가중치를 여러 GPU에 분산 배치해 G5/G6 인스턴스에서도 서빙
--tensor-parallel-size 값만 바꿔 TP=1,2,4 구성을 전환하고, 필요 시 양자화로 메모리 요구량 추가 절감

성능/운영 포인트

TP=4에서 토큰 생성 속도와 전체 처리량이 개선되고, 동시 사용자 증가 시 효과가 더 크게 나타남
TP 적용 시 startup time이 늘고 PCIe 환경에서는 GPU당 효율이 떨어질 수 있어, 워크로드별 벤치마크와 warm pool 고려 필요

적용해볼 점

8B~32B는 G5/G6와 TP=2~4 조합을 우선 검토하고, 70B는 INT8/INT4 양자화 또는 8-GPU 구성을 검토
대화형 서비스는 TP, 총 처리량 중심 API는 수평 확장, 대형 모델은 TP 필수로 판단

댓글 0개

댓글을 작성하려면 로그인이 필요합니다.

댓글을 불러오는 중...