클로드 코드로 롱폼 AI 영상 자동 제작하기: 멀티 에이전트 시스템 구축 가이드

개요

클로드 코드를 활용해 텍스트만 입력하면 대본 조사, 일러스트 생성, 내레이션 녹음, 자막 삽입, 영상 편집까지 모든 과정을 자동으로 수행하는 롱폼 AI 영상 제작 시스템을 구축할 수 있습니다. 이 시스템은 멀티 에이전트 구조를 기반으로 하며, Gemini API, Whisper, FFmpeg 등을 통합하여 1인 크리에이터와 AI 자동화에 관심 있는 개발자들이 실전에서 바로 활용할 수 있는 워크플로우를 제공합니다.

이 영상은 조쉬(uxjoseph)가 1만 명 이상의 구독자를 보유한 AI 뉴스레터 운영자이자 AI 크리에이터로서의 경험을 바탕으로 제작한 콘텐츠입니다. 그는 실제 개발 환경에서 클로드 코드의 서브 에이전트와 스킬 구조를 활용해 영상 제작 파이프라인을 단계별로 구현하는 과정을 상세히 보여주며, 프롬프트 오픈소스까지 제공하여 누구나 따라할 수 있도록 지원합니다.

핵심 내용

멀티 에이전트 아키텍처 설계

클로드 코드의 서브 에이전트와 스킬 구조를 활용하면 롱폼 영상 제작을 체계적으로 자동화할 수 있습니다. 시스템은 크게 “영상 감독 에이전트”와 여러 전문 팀으로 구성됩니다.

영상 감독 에이전트는 전체 파이프라인을 오케스트레이션하는 역할을 합니다. 사용자가 명령을 내리면 리서치·대본 에이전트에게 콘텐츠 조사와 대본 작성을 지시하고, 일러스트 팀에게 그림 생성을, 음향 팀에게 내레이션 녹음을, 자막 팀에게 싱크 맞추기를, 편집 팀에게 최종 영상 합성을 순차적으로 요청합니다.

실제로 영상에서는 쇼펜하우어 철학 명언을 주제로 한 오디오북 스타일 영상을 제작하며, 각 에이전트가 어떻게 협업하는지 구체적으로 보여줍니다. 리서치·대본 에이전트는 웹에서 명언을 수집하고 스토리를 구성하며, 이는 AI 크리에이터가 단순 자동화를 넘어 콘텐츠 퀄리티까지 책임지는 구조로 설계되어 있습니다.

실무에 적용할 때는 각 에이전트의 역할을 명확히 분리하고, 서브 에이전트는 고도화된 사고가 필요한 작업(대본 기획, 리서치)에, 스킬은 반복적이고 토큰 소모가 적은 작업(이미지 생성, TTS 호출, 자막 생성, 영상 편집)에 배치하는 것이 효율적입니다. 다만 초기 프롬프트 설계에 상당한 시간이 소요되며, 각 API의 비용 구조를 사전에 파악해야 예산 초과를 방지할 수 있습니다.

Gemini API 통합 전략

Gemini API 하나로 일러스트 생성과 TTS 내레이션을 모두 처리할 수 있어 통합 관리가 간편합니다. 영상에서는 AI Studio(aistudio.google.com)에서 API 키를 발급받고, 결제 연동 후 프로젝트별로 키를 관리하는 방법을 안내합니다.

일러스트 제작 스킬은 Gemini 2.0 Flash가 아닌 Gemini 3.0 Pro를 사용해야 고품질 이미지를 얻을 수 있습니다. 초기 테스트에서는 이미지 비율이 깨지거나 스케치 스타일이 일관되지 않는 문제가 발생했으나, 모델을 Pro로 변경하고 프롬프트를 개선한 후 철학적 분위기의 스케치 이미지가 안정적으로 생성되었습니다.

TTS는 Gemini 2.5 Flash TTS API 대신 2.5 Pro를 사용해야 “깊고 낮은 목소리”로 오디오북 스타일 내레이션을 제작할 수 있습니다. API 호출은 ENV 파일에 GEMINI_API_KEY를 저장해 비밀 키를 관리하며, 클로드 코드가 자동으로 이를 참조하도록 설정합니다.

특히 흥미로운 점은 Gemini API가 이미지 생성부터 음성 합성까지 원스톱으로 지원하여 복잡한 API 통합 작업 없이도 AI 자동화 파이프라인을 빠르게 구축할 수 있다는 것입니다. 뉴스레터 콘텐츠를 영상화하는 상황에서는 Gemini Pro로 텍스트를 분석해 핵심 장면을 추출하고 일러스트를 생성한 뒤, 같은 API로 내레이션까지 완성하는 플로우를 적용할 수 있습니다. 반면 블로그 글을 영상으로 변환하는 상황에서는 긴 텍스트를 요약하고 시각적 요소를 추가하는 단계에서 토큰 비용이 급증할 수 있으므로, 사전에 섹션별로 분할 처리하는 전략이 필요합니다.

Whisper와 FFmpeg 자동 편집 파이프라인

Whisper 엔진(Large V3 모델)을 로컬에 설치하면 생성된 오디오를 인식해 정확한 자막을 생성할 수 있습니다. 이 모델은 약 2GB의 저장 공간을 요구하므로 컴퓨터 용량을 미리 확보해야 합니다. OpenAI API를 활용하는 방법도 있으나, 로컬 모델을 사용하면 반복 호출 시 비용 부담을 줄일 수 있습니다.

FFmpeg는 파이썬 라이브러리로 동작하며, 생성된 일러스트 이미지와 오디오를 합성하고 자막을 입히며 배경 음악까지 추가하는 “영상 편집 개발자” 역할을 수행합니다. 영상에서는 코트라 손글씨 폰트(눈누에서 무료 다운로드 가능)를 자막 폰트로 지정하고, 유튜브 스튜디오의 오디오 보관함에서 상업적 이용 가능한 클래식 음악을 BGM으로 활용했습니다.

초기 테스트에서는 자막과 음성 싱크가 맞지 않는 문제가 발생했습니다. 이는 Whisper 스킬이 FFmpeg 편집 파이프라인과 제대로 연동되지 않아 발생한 것으로, 클로드 코드에서 “자막이 음성에 따라 제대로 나오지 않고 있어. Whisper 스킬 확인해서 고쳐 줘”라고 요청하면 자동으로 스킬 코드를 수정하여 문제를 해결합니다. 3차 테스트에서는 스케치 이미지, 자막, 배경 음악이 모두 싱크가 맞아 떨어지는 완성도 높은 영상이 생성되었습니다.

에셋 준비와 상업적 활용 전략

폰트와 BGM 같은 에셋을 미리 준비하면 상업적으로 활용 가능한 AI 영상 템플릿을 구축할 수 있습니다. 영상에서는 눈누(noonnu.cc)에서 코트라 손글씨체 TTF 파일을 다운로드하고, 유튜브 스튜디오 오디오 보관함에서 저작권 걱정 없는 클래식 음악을 선택했습니다.

에셋 폴더 구조는 다음과 같이 구성됩니다:
/fonts/코트라손글씨체.ttf – 자막 폰트
/assets/bgm.mp3 – 배경 음악
/output/[프로젝트명]/audio/ – 생성된 오디오 파일
/output/[프로젝트명]/images/ – 생성된 일러스트
/output/[프로젝트명]/final_video.mp4 – 최종 영상

클로드 코드가 이러한 폴더 구조를 자동으로 생성하고 파일을 배치하므로, 개발자는 초기 설정만 완료하면 반복 작업 없이 여러 프로젝트를 진행할 수 있습니다. 프롬프트.md 파일에 에셋 경로와 스타일 가이드를 명시하면, 에이전트가 일관된 톤앤매너로 영상을 제작합니다.

반복 테스트를 통한 퀄리티 튜닝

1차 테스트에서는 이미지가 찌그러지고 자막이 음성과 싱크가 맞지 않는 문제가 발생했습니다. 클로드 코드에 “이미지가 깨져 있고 Gemini 3 Pro를 사용하지 않은 것 같아. 자막도 음성과 맞지 않아서 문제가 되고 있어. 새로운 버전을 다시 개선해서 나에게 주길 바래”라고 자연어로 요청하면, 클로드 코드가 자동으로 이미지 생성 스킬과 자막 스킬을 수정합니다.

2차 테스트에서는 Gemini 3 Pro로 생성된 스케치 이미지가 적용되었으나 여전히 자막 싱크 문제가 남아 있었습니다. “자막이 음성에 따라 제대로 나오지 않고 있어. Whisper 스킬 확인해서 고쳐 줘”라고 요청하자, Whisper와 FFmpeg 편집 파이프라인 간 연동 오류가 수정되었습니다.

3차 테스트에서는 스케치 이미지, TTS 내레이션, 자막, 배경 음악이 모두 조화롭게 작동하는 15초 영상이 완성되었습니다. 영상에서는 “고독은 훌륭한 정신의 운명이다. 인생은 고통과 지루함 사이를 오가는 진자와 같다”는 쇼펜하우어 명언이 깊고 낮은 목소리로 전달되며, 철학적 분위기의 스케치 이미지가 전환됩니다.

이러한 반복 튜닝 과정을 통해 AI 크리에이터는 프로덕트 수준의 영상 퀄리티를 확보할 수 있으며, 클로드 코드의 대화형 인터페이스 덕분에 코드를 직접 수정하지 않고도 자연어 피드백만으로 개선 작업을 진행할 수 있습니다.

Veo 3 실험과 영상 엔진 교체

Veo 3는 구글이 제공하는 텍스트-투-비디오 엔진으로, 기존 파이프라인을 유지한 채 이미지 대신 동영상 클립을 생성할 수 있습니다. 영상에서는 “Veo 3 API로 한번 해보면 좋겠습니다. Veo 3로 영상을 샘플로 하나 다시 만들어 줘”라고 요청하자, 클로드 코드가 Gemini API 대신 Veo 3 엔진을 호출해 도널드 트럼프를 주제로 한 샘플 영상을 생성했습니다.

Veo 3 샘플 영상에서는 “1946년 6월 14일 뉴욕 퀸스. 부동산 재벌 프레드 트럼프의 아들로 한 소년이 태어났다. 그의 이름은 도널드 존 트럼프. 어차피 생각할 거라면 크게 생각하라”는 내레이션과 함께 실사 스타일 영상이 생성되었습니다. 다만 Veo 3는 하루 약 10회 호출 제한이 있어 실전 프로젝트에서는 제한적으로 활용해야 합니다.

AI 크리에이터는 롱폼 영상(10분 이상)과 짧은 샘플(15초~1분)을 조합해 사용할 수 있습니다. 예를 들어 뉴스레터 요약 영상은 Gemini 이미지로 빠르게 제작하고, 중요한 론칭 영상이나 프로모션 클립은 Veo 3로 고품질 영상을 생성하는 전략입니다.

실전 가이드

영상의 내용을 실제로 적용하려면 다음 과정을 따라해볼 수 있습니다:

먼저 개발 환경을 세팅합니다. Cursor 에디터를 설치하고(또는 Claude Desktop 앱 사용) 클로드 코드를 활성화합니다. 새 프로젝트 폴더(예: youtube-longform-agent)를 생성하고 터미널에서 claude 명령어로 클로드 코드를 시작합니다. 이 단계에서는 클로드 프로 플랜(월 $20) 구독이 필요하며, 대략 5분 정도 소요됩니다.

다음으로 Gemini API 키를 발급받습니다. AI Studio(aistudio.google.com)에 접속해 “Get API Key”를 클릭하고, 결제 연동 후 새 프로젝트를 생성합니다. API 키를 복사한 뒤 프로젝트 루트에 .env 파일을 생성하고 GEMINI_API_KEY=your_api_key_here 형태로 저장합니다. 여기서 결제 연동이 되어 있지 않으면 API 호출이 불가능하므로, 구글 클라우드 콘솔에서 결제 수단을 등록해야 합니다. 약 10분 정도 소요됩니다.

마지막으로 프롬프트.md 파일을 작성하고 에이전트 구조를 초기화합니다. 영상에서 제공하는 오픈소스 프롬프트(github.com/uxjoseph/quote-video-prompt)를 다운로드하거나, 클로드 코드에 “오디오북 영상 시스템을 만들어 줘. 서브 에이전트는 영상 감독과 작가, 스킬은 이미지 생성(Gemini 3.0 Pro), TTS(Gemini 2.5 Pro), 자막(Whisper Large V3), 편집(FFmpeg)으로 구성해 줘”라고 요청하면 자동으로 폴더 구조(/agents, /skills)와 초기 코드를 생성합니다. 폰트 파일과 BGM을 /fonts, /assets 폴더에 배치하면 준비가 완료됩니다. 이 과정은 15분에서 30분 정도 걸리며, 완료 후 “이 내용 포함해서 테스트 영상 하나 생성해 줘”라고 요청하면 첫 샘플 영상이 생성됩니다.

비판적 검토

영상은 클로드 코드의 멀티 에이전트 구조를 실전에서 어떻게 활용하는지 단계별로 잘 보여줍니다. 특히 자연어 피드백만으로 이미지 모델을 Flash에서 Pro로 변경하고 자막 싱크 문제를 해결하는 과정은, AI 자동화가 단순 반복 작업을 넘어 복잡한 파이프라인 튜닝에도 유용함을 입증합니다. 또한 프롬프트를 오픈소스로 공개하여 누구나 따라할 수 있도록 한 점이 인상적입니다.

다만 영상에서 API 비용 추정이 다소 모호합니다. 15초 영상이 100~200원, 30분 영상이 5,000~10,000원이라는 언급이 있으나, 이는 Gemini API 호출 빈도, 이미지 생성 품질 설정, TTS 사용량에 따라 크게 달라질 수 있습니다. 실무에 적용하실 분들은 소규모 테스트로 실제 비용을 측정한 후 예산을 책정하시길 권장합니다. 또한 Whisper Large V3 모델이 2GB 용량을 차지하므로, 저사양 PC에서는 OpenAI API를 대안으로 고려해야 합니다.

유튜브 AI 가이드라인에 대한 경고도 중요합니다. 발표자는 “AI 영상을 유튜브에 올리는 것은 권장하지 않는다”고 명시하며, 앞으로 AI 생성 콘텐츠 검열이 강화될 것으로 전망합니다. 현재 유튜브는 AI 생성 영상에 라벨 표시를 의무화하고 있으며, 저작권 침해나 딥페이크 우려가 있는 콘텐츠는 수익 창출이 제한될 수 있습니다. 따라서 이 시스템은 유튜브 업로드보다는 뉴스레터 콘텐츠 영상화, 블로그 요약 영상, SaaS 프로덕트 소개 영상 등 내부 콘텐츠 자동화에 적합합니다.

핵심 요점

영상을 본 후 기억해야 할 다섯 가지:

클로드 코드의 서브 에이전트와 스킬 구조를 활용하면 AI 영상 제작 전 과정을 자동화할 수 있습니다. 서브 에이전트는 고도화된 사고가 필요한 작업(대본 기획, 리서치)을, 스킬은 반복적 작업(이미지 생성, TTS, 자막, 편집)을 담당하도록 설계하여 토큰 효율을 극대화하세요. 실전에서는 프롬프트.md 파일에 역할 분담을 명시하고, 클로드 코드가 /agents와 /skills 폴더를 자동 생성하도록 요청하면 됩니다.
Gemini API 하나로 일러스트(3.0 Pro)와 TTS(2.5 Pro)를 통합 관리하여 복잡한 API 통합 없이 효율적인 파이프라인을 구축할 수 있습니다. AI Studio에서 API 키를 발급받고 .env 파일에 저장한 뒤, 결제 연동을 완료하면 즉시 사용 가능합니다. 이미지 품질이 낮다면 Flash 대신 Pro 모델을 사용하고, 내레이션 톤을 조정하려면 TTS 프롬프트에 “깊고 낮은 목소리” 등 구체적 지시를 추가하세요.
Whisper(Large V3)와 FFmpeg를 조합하면 자막 생성, 싱크 맞추기, 영상 합성을 자동 처리하는 편집 스킬을 만들 수 있습니다. Whisper는 로컬 모델(2GB)을 설치하거나 OpenAI API를 사용하며, FFmpeg는 파이썬 라이브러리로 이미지·오디오·자막을 합성합니다. 자막 싱크 문제는 클로드 코드에 자연어로 피드백하면 자동으로 스킬 코드가 수정되므로, 개발 지식 없이도 튜닝할 수 있습니다.
폰트(눈누 무료 폰트), BGM(유튜브 스튜디오 오디오 보관함)을 미리 준비하면 상업적으로 활용 가능한 AI 영상 템플릿을 구축할 수 있습니다. 에셋 폴더(/fonts, /assets)를 생성하고 프롬프트.md에 경로를 명시하면, 에이전트가 일관된 스타일로 영상을 반복 제작합니다. 뉴스레터를 영상화하거나 블로그 요약 영상을 만들 때, 이러한 템플릿 구조가 프로덕션 속도를 크게 향상시킵니다.
1~3차 테스트를 통해 이미지 비율, 자막 싱크, 모델 선택을 단계적으로 튜닝하고, 필요 시 Veo 3 엔진으로 교체하여 텍스트 기반 샘플 영상을 완성할 수 있습니다. 초기 테스트에서 문제가 발생하면 클로드 코드에 자연어로 피드백(예: “이미지가 깨져 있어”, “자막이 안 맞아”)하여 자동 개선을 유도하세요. Veo 3는 하루 10회 제한이 있으므로, 중요한 프로모션 영상에만 선택적으로 사용하고 일반 콘텐츠는 Gemini 이미지로 처리하는 것이 비용 효율적입니다.

참고자료

영상에서 언급된 자료와 더 깊이 있는 학습을 위한 출처들:

오픈소스 프롬프트: https://github.com/uxjoseph/quote-video-prompt
조쉬의 AI 뉴스레터 (1만+ 구독자): https://maily.so/josh
조쉬의 Threads: https://www.threads.com/@joshproductletter
조쉬의 LinkedIn: https://www.linkedin.com/in/uxjosh/
ASC 연간 멤버십 프로그램: https://asc.oopy.io/
Google AI Studio (Gemini API 발급): https://aistudio.google.com
눈누 무료 폰트: https://noonnu.cc (코트라 손글씨체 검색)
유튜브 스튜디오 오디오 보관함: https://studio.youtube.com (상업적 이용 가능 BGM)
Claude Code 공식 문서: https://docs.anthropic.com/claude/docs
Whisper 모델 다운로드: https://github.com/openai/whisper
FFmpeg 공식 문서: https://ffmpeg.org/documentation.html

이 글은 YouTube 자동 생성 자막(자막 추출일: 2026-01-18)을 바탕으로 작성되었습니다. 영상의 핵심 내용을 정리한 것이므로, 보다 완전한 이해를 위해서는 원본 영상 시청을 권장합니다.

개요