

딜리버리 프로덕트 개발팀의 개발문화 - 로그 & 알람편
운영 로그의 기준을 다시 정리해 실제 장애와 가짜 에러를 구분하는 방법을 다뤘습니다. 알람 노이즈를 줄이고 빠른 인지를 위해 로그 레벨과 임계치를 팀 기준으로 조정했습니다.


운영 로그의 기준을 다시 정리해 실제 장애와 가짜 에러를 구분하는 방법을 다뤘습니다. 알람 노이즈를 줄이고 빠른 인지를 위해 로그 레벨과 임계치를 팀 기준으로 조정했습니다.

카카오페이 FDS에 지속 성장하는 ML을 적용해 급변하는 사고 패턴에 대응한 사례를 소개했습니다. 지속적 학습과 자가 적응 피처로 신규 유형 사고 탐지 성능을 높였습니다.

Redis Cluster에서 `keys` 명령어로 인해 replica 동기화가 반복 실패하는 문제를 분석했습니다. `scan` 사용과 버퍼 제한 설정 점검으로 재발 방지 포인트를 정리했습니다.


증정 행사 조회 트래픽 급증 문제를 해결하기 위해 RDS, ElastiCache, 로컬 캐시를 결합한 다중 레이어 캐시를 적용했습니다. 그 결과 TPS는 크게 증가하고 Redis 네트워크 송신량은 대폭 감소했습니다.


Spring Boot와 Java 버전업 과정에서 Gson 직렬화 에러의 원인을 자바 모듈 시스템 변화로 분석했습니다. `LocalDateTime`에 Custom TypeAdapter를 적용해 리플렉션 문제를 우회하고 해결했습니다.


Spring Kafka의 seek 기능으로 컨슈머를 멈추지 않고 오프셋을 이동하는 방법을 정리했습니다. 분산 환경에서는 HTTP API와 Redis Pub/Sub로 요청을 전파해 그룹 단위 재처리를 구현했습니다.


비동기 메시지 규칙이 제각각이던 레거시 시스템을 통합 이벤트·커맨드·태스크로 분류해 표준화했습니다. Kafka와 Bullmq로 cloud agnostic 인프라를 구성해 CSAP 대응 마이그레이션을 완료했습니다.

올리브영 선물하기관은 DB 의존과 배치 지연으로 성능과 신뢰성 문제가 있었습니다. 전시 전략 통합과 AOP·리플렉션 기반 개선으로 빠르고 정확한 서비스로 개편했습니다.

무신사 주문 시스템이 모놀리식에서 MSA, EDA, Kafka, Java 전환까지 단계적으로 개선된 과정을 다뤘습니다. 대규모 트래픽과 이벤트 시즌에서도 안정성과 확장성을 높인 리팩토링 경험을 공유했습니다.


Redis Stream으로 재고 변동 이력을 시계열 데이터로 쌓아 조회 비효율을 줄인 사례를 소개했습니다. 날짜 단위 키와 범위 분할 조회로 순서 보장과 성능을 함께 고려했습니다.


Hyperconnect SRE팀이 Azar 핵심 컴포넌트를 대상으로 첫 장애 모의 훈련을 진행한 과정을 공유했습니다. 실제형 시나리오와 stage 환경 보강을 통해 완화 우선 대응과 팀 간 지표 공유의 중요성을 확인했습니다.

MySQL 기반 message-relay의 쿼리 지연과 lock wait 문제를 분석하고 개선한 사례를 소개했습니다. NOWAIT와 LIMIT 조합으로 lock 경합을 줄여 성능을 안정화했습니다.