2
AI 요약
이 글은 AI가 원문을 분석하여 핵심 내용을 요약한 것입니다.
이 게시물은 Amazon EKS 위에서 NVIDIA OSMO 기반 Physical AI 워크플로를 안전하고 반복 가능하게 운영하는 레퍼런스 아키텍처를 제시합니다.
구성 요소로는 Karpenter, NVIDIA GPU Operator, KAI Scheduler, NVIDIA OSMO, AWS 관리형 백엔드 서비스, AMP/AMG, EFA를 사용해 GPU 스케줄링·아티팩트 보존·관찰 가능성·보안을 일관된 패턴으로 관리합니다.
OSMO는 워크플로를 YAML로 정의하고 compute pool(EKS+Karpenter의 G family GPU 노드)과 data store(S3 아티팩트 저장소)에 매핑해 실행합니다.
GPU 실행 경로에서는 PodGroup 기반 gang scheduling과 platform/PodTemplate 설정으로 GPU NodePool 선택 및 장시간 실행 pod 보호를 처리합니다.
순차 실행과 병렬 실행(그룹 기반 master/worker) 워크플로 패턴, 그리고 멀티 노드 EFA 학습 운영을 예시로 설명합니다.
운영 시에는 AMP/AMG로 GPU 텔레메트리와 워크플로 메트릭을 시각화하고, Karpenter scale-to-zero에 따른 제출 거부를 prewarm 방식으로 완화하는 구성을 권장합니다.


