Agentic AIOps — RCA 에이전트 ‘SentryOn’ 도입기 (feat. Strands SDK)

0
AI 요약

이 글은 AI가 원문을 분석하여 핵심 내용을 요약한 것입니다.

이 게시물은 롯데온에서 장애 발생 시 원인을 추론하는 RCA 에이전트 SentryOn 도입 과정을 공유하는 글입니다. AWS EKS 기반 MSA 환경에서 장애 대응이 여러 인원과 경험에 의존하게 되는 한계를 해결하기 위해 24/365 AI Agent를 구축한 배경을 설명합니다. Strands Agent SDK의 Agent Loop를 기반으로 Orchestrator-전문 Agent Multi Agent로 시작했으나, 스키마 정의 난이도와 TTFT 저하로 Single Agent 구조로 전환한 이유를 제시합니다. 사내 도메인 지식 프롬프트 주입, Whatap/ES 데이터 정제(수십MB JSON은 CLI jq 필터링, 로그는 에러 패밀리로 압축)로 LLM 컨텍스트 한계와 답변 품질 문제를 완화합니다. Datadog 메트릭 조회는 Skill/Plugin(스킬 인덱싱, 관련 레퍼런스만 로드)으로 환각을 줄이며, 프롬프트 캐싱을 통해 비용과 지연을 줄이려는 설계를 다룹니다.

연관 게시글