AI와 코드 사이: 이미지 한 장을 편집 가능한 레이어로 되돌리기

이 글은 AI가 원문을 분석하여 핵심 내용을 요약한 것입니다.

이 게시물은 이미지 분해를 생성형 모델로 전부 처리하던 방식을 “지켜야 할 것만 보존하고, 없어지는 부분만 생성”하는 파이프라인으로 바꾼 과정을 정리합니다. 문제는 요소를 재생성하면 비용(한 장 0.6~0.8달러)과 원본 형태 변화가 함께 발생한다는 점으로, 이를 스키마(manifest) 기반으로 역할을 나눠 해결합니다. 비전 모델(gpt-5 비전)이 이미지에서 무엇이 어디에 있는지 분석해 manifest를 만들고, 실행은 crop·shape는 로컬 도구와 코드로 처리하며 generate는 가려진 픽셀 복원 같은 필수 구간에만 제한합니다. 분해 비용을 0.1~0.2달러로 낮춘 핵심은 generate 호출을 단계마다 걷어내고, 정체성(로고·인물·캐릭터)은 crop·매팅으로 보존하는 라우팅(imageMode)입니다. 속도는 WebGPU로 매팅과 업스케일을 온디바이스에서 수행해 브라우저 처리 시간을 80초에서 14초로 줄인 실험으로 설명합니다. 한계로는 가려진 영역 복원이 여전히 생성 품질에 기대며, 분해 정확도는 비전 모델 인식 성능에 좌우된다고 밝힙니다.

연관 게시글

사람도 기계도 읽는 규약: 예측 가능한 AI 제품 만들기

VLM을 쓰지 않은 이유: Geometric Prior로 25배 빠른 의류 디테일컷 자동화

AWS Bedrock과 Claude 3.5 Sonnet을 활용한 자동 상품 이미지 검수 시스템 구축기