OpenMontage:全球首个开源AI Agent视频制作系统,用自然语言拍电影

# OpenMontage:全球首个开源 AI Agent 视频制作系统,用自然语言拍电影

你有没有想过,跟 AI 说一句话,它就能帮你做出一整条完整的视频——从选题调研、写脚本、生成画面、配音配乐,到字幕、剪辑、最终合成?不是那种简单拼几张图的”伪视频”,而是真正调用视频素材、剪辑时间线、渲染成品的那种。

**OpenMontage** 做到了。上线不到一周就飙到 **10,500+ Star**,今天单日涨了近 3000 星。

## OpenMontage 是什么?

OpenMontage 自称”全球首个开源的 Agentic 视频制作系统”。翻译成人话:把你的 AI 编程助手(Claude Code、Cursor、Copilot、Windsurf 等)变成一间完整的视频制作工作室。

它的核心思路很特别:**没有代码编排器,AI Agent 本身就是编排器**。Python 只提供工具和持久化,所有创意决策、编排逻辑、审查标准都写在可读的指令文件中(YAML + Markdown),你可以随时查看、修改。

## 12 条生产管线,覆盖所有视频类型

OpenMontage 内置了 12 条完整的生产管线(Pipeline),每条管线是从想法到成片的完整工作流:

| 管线 | 做什么的 | 适合场景 |
|——|———-|———-|
| Animated Explainer | AI 生成解说视频 | 教育、教程、知识科普 |
| Animation | 动态图形、动画视频 | 社交媒体、产品演示 |
| Cinematic | 电影感预告片 | 品牌宣传、概念片 |
| Documentary Montage | 真实素材纪录片风格蒙太奇 | 视频散文、氛围片 |
| Talking Head | 真人出镜引导视频 | 演讲、Vlog、访谈 |
| Screen Demo | 屏幕录制演示 | 产品演示、教程 |
| Clip Factory | 从长视频批量拆短视频 | 长内容转社媒分发 |
| Podcast Repurpose | 播客内容转视频 | 播客营销 |
| Avatar Spokesperson | 虚拟人出镜 | 企业通讯、培训 |
| Localization & Dub | 字幕翻译配音 | 多语言分发 |
| Hybrid | 实拍素材+AI生成增强 | 丰富现有素材 |
| Character Animation | 本地角色动画 | 卡通角色表演 |

每条管线遵循统一流程:**研究 → 提案 → 脚本 → 场景规划 → 资产生成 → 剪辑 → 合成**,每个阶段都有专用的”导演技能”指导 Agent 如何执行。

## 不只是”图片轮播”——它能做真正的视频

大多数所谓”免费 AI 视频”工具,本质上是把几张静态图做个 Ken Burns 效果就当视频了。OpenMontage 也能做这个,但它真正厉害的地方在于:

**它能从免费/开源的真实视频素材中剪辑出成品。**Agent 会从 Archive.org、NASA、Wikimedia Commons 等公开档案库构建素材语料库,用 CLIP 语义检索匹配片段,再剪辑到时间线上渲染输出——走的是真正的纪录片蒙太奇路线。

如果加上付费 API(fal.ai、Runway、Veo、Kling 等),它还能直接生成 AI 视频片段。比如官方演示的科幻预告片 “SIGNAL FROM TOMORROW” 就是完全用 OpenMontage 制作的——从概念到成片,Veo 生成动态镜头,Remotion 合成。

## 零成本也能跑

即使你一个 API Key 都没有,`make setup` 之后就自带以下免费能力:

– **Piper TTS**:离线文字转语音,真人般自然的旁白
– **Archive.org / NASA / Wikimedia**:免费开放的真实视频档案素材
– **Pexels / Unsplash / Pixabay**:免费图库和视频素材(申请免费开发者密钥即可)
– **Remotion**:React 驱动渲染引擎,支持弹簧动画、字幕、图表动画
– **HyperFrames**:HTML/CSS/GSAP 渲染引擎,适合动态排版和产品宣传片
– **FFmpeg**:编码、字幕烧录、音频混音、调色

如果你有 GPU,还能解锁本地视频生成:

“`bash
make install-gpu
“`

然后在 `.env` 中配置:

“`
VIDEO_GEN_LOCAL_ENABLED=true
VIDEO_GEN_LOCAL_MODEL=wan2.1-1.3b # 或 wan2.1-14b, hunyuan-1.5 等
“`

## 参考视频驱动:粘贴链接就能复刻风格

OpenMontage 的一个杀手级功能是**参考视频分析**。你不需要费尽心思写 prompt——直接粘贴一个 YouTube / TikTok / Reel 链接,Agent 会:

1. 分析原视频的文案、节奏、场景、关键帧、风格
2. 生成 2-3 个差异化方案(保留什么、改变什么)
3. 输出成本估算、工具路径、制作计划

比如:”我喜欢这个 YouTube Short,帮我把类似风格做成一个关于量子计算的 45 秒科普视频。”Agent 给你的不是瞎猜的 prompt,而是有据可依的制作方案。

## 52 个工具 + 400+ 技能 = 专业级生产

OpenMontage 的工具栈非常扎实:

– **13 个视频生成/合成工具**(Veo、Sora、Runway、Kling、MiniMax 等)
– **4 个 TTS 工具**(OpenAI、Google、ElevenLabs、Piper)
– **9 个图像/图形工具**(FLUX、DALL-E 3、Imagen、Recraft 等)
– 还涵盖音乐生成(Suno、ElevenLabs)、音频混音、画面增强、字幕生成、转录分析等

400+ 个 Agent 技能文件告诉 AI 怎么用好每个工具,包括 prompt 技巧、参数优化、质量技术。这相当于把专业视频团队的经验文档化了。

## 质量关卡不打折

OpenMontage 内置了严格的质量控制:

– **交付承诺检查**:禁止输出”幻灯片式”视频
– **合成前验证**:在浪费 GPU 时间之前拦截有问题的计划
– **合成后自审**:ffprobe 检查 + 帧提取 + 音频分析,确保输出质量
– **决策可追溯**:每个 provider 选择、风格决定、回退方案都有审计日志

## 快速上手

**环境要求:**
– Python 3.10+
– FFmpeg
– Node.js 18+
– 一个 AI 编程助手

**安装:**

“`bash
# macOS
brew install ffmpeg

# Ubuntu
sudo apt install ffmpeg

# Windows
# 去 ffmpeg.org 下载

# 克隆安装
git clone https://github.com/calesthio/OpenMontage.git
cd OpenMontage
make setup
“`

如果没有 make:

“`bash
pip install -r requirements.txt
cd remotion-composer && npm install && cd ..
pip install piper-tts
cp .env.example .env
“`

**Windows 用户注意**:如果 `npm install` 报 `ERR_INVALID_ARG_TYPE`,用 `npx –yes npm install` 替代。

然后在 AI 编程助手中打开项目,直接说你要做什么:

“`
“做一个 60 秒的动画解说视频,解释神经网络怎么学习的”
“做一个 75 秒的雨夜城市纪录片蒙太奇,用真实素材、不要旁白、配乐就行”
“做一个吉卜力风格的 30 秒动画,关于云端的魔法图书馆”
“`

## 总结

OpenMontage 把”AI 做视频”这件事从玩具级提升到了生产级。它不只是给你一个 API 调用的封装,而是把一整套视频制作流程(研究→策划→脚本→制作→审查)以 Agent 原生的方式做成了开放系统。

它最打动我的三点:

1. **零成本真的能用**——Piper TTS + 开放档案素材 + Remotion 渲染,不花一分钱做出真正的视频
2. **质量不妥协**——多级质量关卡、决策审计、交付承诺检查,不是”生成就完事了”
3. **完全开放可定制**——所有指令文件都是可读的 Markdown/YAML,你可以改成自己的工作流

如果你有本地 GPU 或者愿意花几美元的 API 费用,输出质量还会有质的飞跃。感兴趣的话,建议直接看官方 YouTube 频道的演示视频,每条都附带了完整 prompt 和成本明细,可以原样复现。

> **项目地址**:[https://github.com/calesthio/OpenMontage](https://github.com/calesthio/OpenMontage)
> **Star 数**:10,566 ⭐(单日 +2,935)
> **许可证**:AGPL v3

© 版权声明
THE END
喜欢就支持一下吧
点赞10 分享