
78
AI 요약
이 글은 AI가 원문을 분석하여 핵심 내용을 요약한 것입니다.
수식없이 GPT(트랜스포머) 이해하기
이 게시물은 GPT의 핵심 구조인 트랜스포머의 Self Attention Block의 기본 구조와 동작 원리를 수식 없이 설명합니다.LLM 모델의 구조
- 입력 텍스트는 텍스트 및 위치 임베딩을 거쳐 d차원 벡터로 변환됩니다.
- 이 벡터는 Masked Multi-Head Self Attention을 통해 처리되고, 입력과 출력의 크기가 동일합니다.
- Feed Forward Layer를 거치며 차원을 확장 후 축소하여 학습 효과를 높입니다.
Self Attention의 흐름
- 입력 벡터에서 Query, Key, Value 행렬을 생성하여 단어 간 관계를 파악합니다.
- Masked Self Attention으로 미래 단어에 대한 정보 누출을 방지합니다.
- 멀티헤드 어텐션으로 여러 시각에서 관계를 분석하고 결과를 합칩니다.
- 최종 출력은 다음 단어 예측에 사용됩니다.