AI 학습을 위한 LLM 스터디 - 배치 전략 및 어텐션 개선 방안 - 데보션 | Velopers

AI 학습을 위한 LLM 스터디 - 배치 전략 및 어텐션 개선 방안

2025년 2월 8일

12

AI 요약

이 글은 AI가 원문을 분석하여 핵심 내용을 요약한 것입니다.

AI 학습을 위한 LLM 스터디 - 배치 전략 및 어텐션 개선 방안

이 게시물은 대규모 언어 모델(LLM)의 배치 전략과 어텐션 메커니즘 개선 방법에 대해 설명합니다.

배치 전략

일반 배치와 동적 배치를 비교하며 각각의 장단점 소개
인-플라이트 배칭을 통해 요청 도착 즉시 처리 및 대기 시간 감소

트랜스포머 어텐션 개선

플래시어텐션 기술로 메모리 사용량과 연산 효율 최적화
상대적 위치 인코딩과 RoPE를 활용해 위치 정보 처리 향상
커널 퓨전으로 GPU 메모리 접근 최소화 및 실행 오버헤드 감소
페이지 어텐션으로 긴 시퀀스의 메모리 효율성과 계산 효율성 개선

추측 디코딩

드래프트 모델과 타깃 모델을 활용해 디코딩 속도를 개선하는 방법 설명

연관 게시글

수식없이 GPT(트랜스포머) 이해하기. 2편

수식없이 GPT(트랜스포머) 이해하기. 2편

데보션

데보션 • 2025년 9월 8일

vLLM로 효율적인 모델 서빙하기

vLLM로 효율적인 모델 서빙하기

데보션

데보션 • 2025년 2월 12일

효율적인 GPU 메모리 사용을 위한 여러 기법

효율적인 GPU 메모리 사용을 위한 여러 기법

데보션

데보션 • 2025년 2월 17일