Amazon EKS에서 NVIDIA OSMO 기반 Physical AI 워크플로 운영하기

데브옵스

Amazon EKS에서 NVIDIA OSMO 기반 Physical AI 워크플로 운영하기

AWS

AWS2026년 6월 5일

두줄요약

Amazon EKS에서 NVIDIA OSMO를 활용한 Physical AI 워크플로 운영 레퍼런스 아키텍처를 소개했습니다. GPU 스케줄링, 아티팩트 보존, 모니터링, 보안을 함께 다루는 방법을 설명했습니다.

핵심 내용

Amazon EKS 위에서 NVIDIA OSMO 기반 Physical AI 워크플로를 운영하는 레퍼런스 아키텍처 소개
Karpenter, KAI Scheduler, NVIDIA GPU Operator, AMP, AMG, EFA, AWS 관리형 백엔드 서비스 조합으로 반복 실행 가능한 운영 패턴 구성
워크플로 정의, 플랫폼 매핑, 아티팩트 보존, 관찰 가능성, 보안, 비용 관리까지 함께 고려

구조와 흐름

OSMO는 YAML로 워크플로를 정의하고 CLI로 제출하는 오케스트레이션 계층
pool과 platform으로 실행 리소스를 분리하고, Pod Template으로 GPU·EFA 노드 배치와 스케줄링 설정 반영
순차 실행과 병렬 실행 패턴을 통해 데이터 변환, 학습, 멀티 노드 분산 학습을 연결

적용해볼 점

RDS, ElastiCache, S3, Secrets Manager를 활용해 메타데이터·아티팩트·시크릿 분리 관리
GPU 노드 자동 프로비저닝과 회수, DCGM 메트릭 기반 모니터링, EFA 활용 분산 학습 검토
scale-to-zero 환경에서는 제출 전 prewarm pod로 platform capacity 노출

댓글 0개

댓글을 작성하려면 로그인이 필요합니다.

댓글을 불러오는 중...