
Ray를 활용한 GPU Util 100% MLOps: 배치처리부터 모델 서빙까지
Ray를 활용해 GPU Util 100% 배치 처리와 확장 가능한 모델 서빙 아키텍처를 소개했습니다. Ray Serve와 vLLM 기반 LLM 추론 파이프라인 및 운영 사례도 다뤘습니다.

Ray를 활용해 GPU Util 100% 배치 처리와 확장 가능한 모델 서빙 아키텍처를 소개했습니다. Ray Serve와 vLLM 기반 LLM 추론 파이프라인 및 운영 사례도 다뤘습니다.

대규모 Kubernetes GPU 클러스터에서 AI 서비스 오토스케일링을 적용한 사례를 소개했습니다. 기본 HPA보다 고도화된 GPU orchestration과 KEDA 활용 배경을 공유했습니다.


NVIDIA Dynamo는 분산 추론을 위한 오픈 소스 프레임워크로, Prefill·Decode 분리와 스마트 라우팅으로 성능을 높였습니다.\nKV cache 오프로딩과 NIXL 전송을 통해 GPU 자원 효율과 지연 시간 개선을 노렸습니다.


Kubernetes에 GPU 기반 Triton 추론 서버를 구축해 시맨틱 검색을 실시간으로 처리한 사례를 정리했습니다. ONNX 최적화와 배치·모니터링·배포 자동화로 성능과 운영 효율을 높였습니다.


Hugging Face API를 활용해 GPU에서 딥러닝 모델을 학습하는 흐름과 메모리 사용 구조를 설명했습니다. 또한 Gradient Accumulation, Checkpointing, LoRA, QLoRA로 메모리를 줄이는 방법을 소개했습니다.

GPU 서버호스팅의 개념과 장점을 FAQ 중심으로 정리했습니다. 도입 전 궁금한 권한, 요금, 사양, 지원 범위를 함께 안내했습니다.


GPU 메모리 사용을 줄이기 위한 그레이디언트 누적, 체크포인팅, ZeRO, LoRA, QLoRA를 정리했습니다. 각 기법이 절감하는 메모리 영역과 적용 효과를 예시와 함께 설명했습니다.


CXL의 개념과 PCIe 기반 동작, 메모리 풀링·캐시 일관성 같은 특징을 정리했습니다. AI 연산 시스템과 데이터센터에서 메모리 확장성과 효율을 높이는 활용 가능성도 소개했습니다.

엘리스그룹의 설립 배경과 AI 교육·실습 플랫폼, 클라우드, 평가 서비스 등을 소개했습니다. 또한 오프라인 교육 공간과 최근 소식, 채용 정보도 함께 정리했습니다.

엘리스그룹의 설립 배경과 AI 교육 플랫폼, 클라우드, 테스트 서비스 등을 소개했습니다. 성수 엘리스 랩과 최근 수상 소식, 채용 정보도 함께 다뤘습니다.

스노우 AI 서비스의 GPU 서버 인프라를 Kubernetes 클러스터로 이전한 사례를 공유했습니다.\nGPU 자원 스케줄링과 운영 개선 관점을 함께 살펴볼 수 있습니다.


그래픽스의 Affine 변환을 내적과 매트릭스 연산으로 설명했습니다. 내적의 의미를 이해하면 Transformer와 다차원 공간을 더 쉽게 볼 수 있다고 강조했습니다.