TL;DR

Claude가 캡컷/프리미어를 직접 조작하는 게 아니라, 비개발자가 직접 만든 데스크톱 편집엔진(프리컷)을 자체 MCP 서버로 노출해 ‘무음 제거해줘’ 같은 자연어 한 마디로 전사·컷·내보내기를 연쇄 실행시키는 워크플로우. 진짜 구조는 Claude→MCP→커스텀 편집엔진→캡컷 내보내기다.

출처별 관점

research/2026-06-17-ai-video-editing-agent

  • 핵심 통찰: Claude는 NLE(캡컷/프리미어)를 직접 드라이브하지 않는다. 사용자가 만든 편집엔진을 MCP 도구로 감싸 Claude가 오케스트레이터로서 도구를 호출하고, 컷 keep/cut 판단만 LLM이 맡는다 [1].
  • 자연어 네 마디가 파이프라인을 순차 실행한다: ‘무음 제거해줘’(121구간·35.5초 제거, 996.2초→900.7초) → ‘전사해줘’(ElevenLabs STT) → ‘3분으로 컷편집’(전사 읽고 판단) → ‘캡컷으로 열어줘’(자막+클립 자동 오픈) [1].
  • 자동화 범위는 반복 컷 작업에 한정되고 기획·대본·장면 취사선택은 사람 몫이라고 제작자가 00:22에 솔직히 한정한다 [1].
  • 재현은 도구를 그대로 받는 게 아니라 패턴을 따라 직접 구현하는 것: ffmpeg silencedetect/auto-editor + 로컬 Whisper(whisper.cpp large-v3-turbo, 무키)로 STT 비용 0원화가 가능하다 [1].
  • 한계: 캡컷 draft 포맷에 비공식 의존하므로 버전 업데이트 시 내보내기가 깨질 위험, STT 오류가 컷 판단에 전파될 위험이 있다 [1].

관련 개념