우리는 달에 가기로 했습니다. - Hybrid인프라부터 네트워크 최적화까지, 무신사 AI Infra구축기
무신사의 AI 인프라 구축과 하이브리드 운영 경험을 정리한 글입니다. 온프레미스 GPU와 AWS를 결합해 비용과 성능을 최적화하는 과정과 시행착오를 공유했습니다.
새로운 기술 블로그가 추가되었어요
무신사의 AI 인프라 구축과 하이브리드 운영 경험을 정리한 글입니다. 온프레미스 GPU와 AWS를 결합해 비용과 성능을 최적화하는 과정과 시행착오를 공유했습니다.
AI 인프라를 하이브리드 구조로 재설계해 비용과 운영 리스크를 줄인 사례를 다뤘습니다. Cilium, NLB, OpenTelemetry, Gateway API로 지연과 확장성을 함께 최적화했습니다.
AI로 숙소 후기를 요약·구조화해 탐색에 바로 쓸 수 있는 데이터로 전환했습니다. 사용자는 장문 리뷰를 읽지 않고도 핵심 정보를 빠르게 확인할 수 있게 되었습니다.


여러 계정의 TGW를 하나의 DXGW에 연결해도 동일 리전에서는 실제로 하나만 동작했습니다. 리전당 TGW 1개 제약을 고려해 단일 TGW 중심으로 구조를 단순화했습니다.

EKS에서 EBS 볼륨의 AZ 종속성 때문에 파드 어태치 실패가 발생하는 사례를 정리했습니다. 멀티 AZ가 필요하면 Affinity로 고정하거나 EFS로 전환하는 방식이 핵심입니다.

Amazon Linux 1 지원 종료로 EKS 노드그룹 전환이 필요해졌습니다. 운영 구조를 유지하려면 새 노드그룹 교체가 기본 전략이 되고, 필요 시 신규 클러스터도 고려해야 했습니다.


AWS와 리멤버 해커톤에서 영업팀용 AI 에이전트 샐리 개발 사례를 공유했습니다.리드 발굴과 반복 업무를 자동화하고, 멀티 에이전트 구조를 단순화해 성능을 개선했습니다.


AWS S3 복제에서 소량 작업은 CLI가, 대규모나 교차 계정/리전 복제는 S3 Batch Operations가 적합했습니다. 비용은 작업 요청, 객체 수, 전송 요금과 API 비용까지 함께 고려해야 했습니다.


AWS CloudWatch Agent는 실제 실행 시 .toml을 사용하고, .json은 입력용 설정 파일로 변환됩니다. 설정이 안 반영되거나 파일이 사라진 듯 보이면 원본 보관과 fetch-config 절차를 다시 확인해야 합니다.


AWS S3 교차계정·리전 간 복제를 Batch Operations로 구현하는 절차를 정리했습니다. 기존 객체까지 복제하려면 IAM Role, 버킷 정책, 매니페스트 구성이 함께 필요했습니다.


S3 버킷 삭제가 오래 걸리거나 실패하는 이유를 설명하고, Lifecycle 정책으로 자동 비우는 방법을 정리했습니다. 현재 버전 만료와 삭제마커 제거를 분리해 구성하는 방식이 핵심입니다.


PostgreSQL의 JSON/JSONB 기능으로 스키마 유연성과 트랜잭션 무결성을 함께 확보하는 방법을 소개했습니다. CMS 예제를 통해 GIN 인덱스, JSON_TABLE, 전문 검색, AWS 운영 팁까지 정리했습니다.