HPC를 여행하는 히치하이커를 위한 안내서 Part 2.
8
AI 요약

이 글은 AI가 원문을 분석하여 핵심 내용을 요약한 것입니다.

이 게시물은 Slurm 스케줄러의 내부 작동 원리와 실전 활용법을 다루며 AI/GPU 작업 환경에서의 자원 관리 중요성을 설명합니다.

핵심 내용

  • Slurm 아키텍처와 핵심 데몬(slurmctld, slurmd, slurmdbd) 역할 설명
  • Job 제출부터 종료까지의 전체 라이프사이클과 스케줄링 판단 과정
  • Worker 노드에서 slurmd→slurmstepd→사용자 프로세스로 이어지는 실행 및 cgroup 기반 자원 격리
  • Job 정상 종료와 취소 시의 시그널 흐름, KillWait, SIGKILL, cgroup 기반 완전 정리 메커니즘
  • 대화형(srun/salloc), 배치(sbatch), Job 배열 및 멀티노드 분산 학습 실전 예제
  • QOS, Fairshare, Preemption 등 자원 관리 정책과 실무 진단·대응 팁

연관 게시글