

처음 걸어가는 길, 함께 만든 성과 - 래블업x업스테이지, 독자 AI 파운데이션 모델 1차수 평가 통과 비하인드
업스테이지와 래블업이 독자 AI 파운데이션 모델 1차수 평가 통과 과정을 공유했습니다. 대규모 GPU 인프라 운영과 학습 최적화, 자동 복구 체계가 핵심이었습니다.


업스테이지와 래블업이 독자 AI 파운데이션 모델 1차수 평가 통과 과정을 공유했습니다. 대규모 GPU 인프라 운영과 학습 최적화, 자동 복구 체계가 핵심이었습니다.

AI-RAN 시대를 대비해 기지국 내 AI 모델의 추론 가속화와 On-Site Training을 연구하는 글입니다. 엣지 환경에 맞는 모델 적용과 현장 학습 가능성을 다룹니다.
Jenkins 기반 스케줄 운영의 한계를 해결하기 위해 Temporal을 도입했습니다. 자동 재시도와 실행 이력 가시성으로 출고지시와 주문수집을 더 안정적으로 자동화했습니다.


LG유플러스는 UCMP에 AI Agent를 도입해 클라우드 관리와 분석을 자연어로 제공했습니다. Bedrock AgentCore Runtime과 MCP Server로 확장성과 운영성을 함께 확보했습니다.

장애 대응에서 가장 중요한 초동 조치와 이를 관리하는 라이프사이클을 정리했습니다. 시간 기반 메트릭으로 병목을 찾고 운영 개선으로 연결하는 방식을 소개했습니다.

KREAM이 Gemini로 전사 해커톤을 열어 AI 협업 방식을 조직 안에서 실험했습니다.\n문제 정의와 결과물의 논리성을 중심으로 다양한 프로젝트와 실제 적용 가능성을 확인했습니다.

AI에게 바로 답을 묻기보다 먼저 관점을 제시하고 선택하게 하는 Prothesis 프레임워크를 소개했습니다.병렬 분석으로 기준을 명시화하고 Unknown Unknown을 Known Unknown으로 바꾸는 활용 사례를 설명했습니다.
이구위크 전시 장애는 Redis의 네트워크 대역폭 초과와 버스트 크레딧 소진으로 발생했습니다. 이후 노드 스케일업, 모니터링 강화, 로컬 캐시 도입으로 재발 방지와 성능 개선을 진행했습니다.


AWS Config를 통해 AWS 리소스의 구성과 변경 이력을 관리하는 방법을 설명했습니다. 보안 사고 예방, 감사 대응, 비용 최적화에 어떻게 활용할 수 있는지도 정리했습니다.


외부 온콜 솔루션의 비용과 안정성 한계를 해결하기 위해 서버리스 기반 온콜 시스템을 구축했습니다. 이메일 트리거, 큐 기반 제어, SMS 이중화로 안정성과 비용 효율을 함께 높였습니다.

AWS re:Invent 2025에서 AI 에이전트와 이를 지원하는 인프라·플랫폼의 방향을 정리했습니다. 개발자는 AI를 보조 도구로 활용하되, 검증과 책임, 시스템 사고를 더 강화해야 한다고 강조했습니다.
무신사는 외부 POS 의존으로 생기던 개발 지연과 비용 문제를 해결하기 위해 MPOS를 전면 내재화했습니다. Electron 기반으로 하드웨어 연동, 배포, 모니터링을 정비해 운영 통제력과 개발 속도를 높였습니다.