1
AI 요약
이 글은 AI가 원문을 분석하여 핵심 내용을 요약한 것입니다.
이 게시물은 사내 AI 에이전트(채널랩스)에서 컨텍스트 비용을 줄이기 위한 설계 패턴을 정리한 내용입니다.
v1은 단발성 Message API 반복 호출과 수작업 관리로 토큰 누수 지점이 많았고, v2는 OpenAI Agents SDK 기반으로 세션/도구 실행/가드레일을 런타임에서 표준화해 구조적 문제를 줄였습니다.
컨텍스트 비용 누수의 주요 원인으로 tool output 누적을 지목하고, 이를 파일/채널/스킬 컨텍스트 제어로 해결하려 했습니다.
파일은 모델에 매 턴 본문을 input_file로 첨부하지 않고, reference로만 전달한 뒤 read_file/search_file로 필요 범위만 lazy loading하며 서버 hard cap으로 반환 크기를 제한했습니다.
채널은 전체 목록을 매 턴 전달하지 않고 선택된 채널 중심으로 먼저 주고, 나머지는 필요할 때만 도구 조회로 탐색하며, 검색 후보와 실제 쓰기 대상을 분리하고 도구 응답 스키마도 필요한 필드만 남겼습니다.
스킬은 디렉토리 탐색이나 문서 대량 읽기를 막기 위해 런타임 카탈로그로 선택을 유도하고, 실제 문서 읽기는 단일 작업 단위로 제한 및 응답 크기 상한을 적용했으며 compaction보다 사전 budget control을 우선했습니다.