

멀티모달 LLM을 활용한 Computer Use Agent를 알아보자!
멀티모달 LLM과 AI Agent 흐름을 바탕으로 Computer Use Agent의 개념과 연구 사례를 정리했습니다. 웹 UI 조작과 자동화 가능성을 중심으로 WebShop, LiteWebAgent, AgentQ를 소개했습니다.
#LLM#MCP
60005분


멀티모달 LLM과 AI Agent 흐름을 바탕으로 Computer Use Agent의 개념과 연구 사례를 정리했습니다. 웹 UI 조작과 자동화 가능성을 중심으로 WebShop, LiteWebAgent, AgentQ를 소개했습니다.

카카오 카나나 조직이 멀티모달 언어모델 Kanana-o를 소개했습니다. 이미지와 음성을 함께 다루는 모델 개요를 다루는 글입니다.


Meta Llama 4 토크나이저의 한국어 효율과 주요 특성을 비교 분석했습니다.\n독자 토크나이저, 강화된 챗 템플릿, 스페셜 토큰 구성도 함께 살펴봤습니다.

AI 에이전트의 개념, 구조, 유형, 비즈니스 활용 가치를 설명했습니다. 보안과 신뢰성 같은 도입 과제와 향후 발전 방향도 함께 정리했습니다.

VLM과 LLM을 활용해 멀티모달 학습 데이터를 만드는 방법을 소개했습니다. OCR, 프롬프트 엔지니어링, 후처리로 수작업 라벨링의 비용과 시간을 줄였습니다.

X


공개 한국어 표 데이터와 InternVL2-1B로 멀티모달 LLM을 직접 학습한 사례를 소개했습니다. 작은 모델과 적은 데이터로도 표 이해 챗봇 시나리오를 검증할 수 있었습니다.

뉴스 정보를 이용해 고용률 변화를 예측하는 멀티모달 모델 개발 과정을 소개했습니다. 이번 글에서는 고용 기사 분류와 감정 분석을 위한 KoELECTRA 기반 설계를 다뤘습니다.