许可证:Apache-2.0
语言:
- 英文
- 中文
任务类型:文本生成视频
库名称:diffusers
标签:
- 视频
- 视频生成
万趣
😊 欢迎体验!


English | 简体中文
目录
模型地址
V1.1版本:
名称 |
存储空间 |
Hugging Face |
魔搭社区 |
描述 |
Wan2.1-Fun-V1.1-1.3B-InP |
19.0 GB |
🤗链接 |
😄链接 |
支持多分辨率训练的1.3B参数文生视频模型,可预测首尾帧。 |
Wan2.1-Fun-V1.1-14B-InP |
47.0 GB |
🤗链接 |
😄链接 |
支持多分辨率训练的14B参数文生视频模型,可预测首尾帧。 |
Wan2.1-Fun-V1.1-1.3B-Control |
19.0 GB |
🤗链接 |
😄链接 |
1.3B参数视频控制模型,支持Canny边缘检测、深度图、姿态、MLSD等控制条件,可结合参考图与轨迹控制,支持512/768/1024分辨率,81帧16FPS训练,多语言生成。 |
Wan2.1-Fun-V1.1-14B-Control |
47.0 GB |
🤗链接 |
😄链接 |
14B参数视频控制模型,功能同1.3B版本,支持更高精度生成。 |
Wan2.1-Fun-V1.1-1.3B-Control-Camera |
19.0 GB |
🤗链接 |
😄链接 |
1.3B参数镜头控制模型,支持多分辨率视频生成与多语言输入。 |
Wan2.1-Fun-V1.1-14B-Control |
47.0 GB |
🤗链接 |
😄链接 |
14B参数镜头控制模型,支持专业级镜头运动模拟。 |
V1.0版本:
名称 |
存储空间 |
Hugging Face |
魔搭社区 |
描述 |
Wan2.1-Fun-1.3B-InP |
19.0 GB |
🤗链接 |
😄链接 |
初代1.3B文生视频模型 |
Wan2.1-Fun-14B-InP |
47.0 GB |
🤗链接 |
😄链接 |
初代14B文生视频模型 |
Wan2.1-Fun-1.3B-Control |
19.0 GB |
🤗链接 |
😄链接 |
初代1.3B视频控制模型 |
Wan2.1-Fun-14B-Control |
47.0 GB |
🤗链接 |
😄链接 |
初代14B视频控制模型 |
视频作品
Wan2.1-Fun-V1.1-14B-InP 与 1.3B-InP 生成效果
14B-Control 与 1.3B-Control 控制生成
参考图+控制视频生成:
参考图 |
控制视频 |
14B生成结果 |
1.3B生成结果 |
 |
|
|
|
轨迹控制与常规控制(Canny/姿态/深度等):
镜头控制效果
上移镜头 |
左移镜头 |
右移镜头 |
|
|
|
下移镜头 |
左上移镜头 |
右上移镜头 |
|
|
|
快速启动
1. 云端部署:阿里云DSW/Docker
a. 通过阿里云DSW
阿里云提供免费GPU资源,5分钟即可启动CogVideoX-Fun。

b. 通过ComfyUI
可视化工作流界面详见ComfyUI说明文档。

c. 通过Docker
确保已安装NVIDIA驱动与CUDA后执行:
docker pull mybigpai-public-registry.cn-beijing.cr.aliyuncs.com/easycv/torch_cuda:cogvideox_fun
docker run -it -p 7860:7860 --network host --gpus all --security-opt seccomp:unconfined --shm-size 200g mybigpai-public-registry.cn-beijing.cr.aliyuncs.com/easycv/torch_cuda:cogvideox_fun
git clone https://github.com/aigc-apps/VideoX-Fun.git
cd VideoX-Fun
mkdir models/Diffusion_Transformer
mkdir models/Personalized_Model
2. 本地安装:环境配置指南
a. 环境要求
已验证支持环境:
Windows系统
- 操作系统:Windows 10
- Python: 3.10/3.11
- PyTorch: 2.2.0
- CUDA: 11.8/12.1
- cuDNN: 8+
- 显卡:NVIDIA 3060 12G / 3090 24G
Linux系统
- 操作系统:Ubuntu 20.04, CentOS
- Python: 3.10/3.11
- PyTorch: 2.2.0
- CUDA: 11.8/12.1
- cuDNN: 8+
- 显卡:V100 16G / A10 24G / A100 40G/80G
⚠️ 需预留60GB磁盘空间
b. 权重放置
ComfyUI用户:
将模型放入ComfyUI/models/Fun_Models/
目录:
📦 ComfyUI/
├── 📂 models/
│ └── 📂 Fun_Models/
│ ├── 📂 CogVideoX-Fun-V1.1-2b-InP/
│ ├── 📂 CogVideoX-Fun-V1.1-5b-InP/
│ ├── 📂 Wan2.1-Fun-V1.1-14B-InP
│ └── 📂 Wan2.1-Fun-V1.1-1.3B-InP/
Python脚本用户:
📦 models/
├── 📂 Diffusion_Transformer/
│ ├── 📂 CogVideoX-Fun-V1.1-2b-InP/
│ ├── 📂 CogVideoX-Fun-V1.1-5b-InP/
│ ├── 📂 Wan2.1-Fun-V1.1-14B-InP
│ └── 📂 Wan2.1-Fun-V1.1-1.3B-InP/
├── 📂 Personalized_Model/
│ └── 自定义训练模型/LoRA权重
使用方法
1. 视频生成
a、显存优化方案
针对大模型提供三种显存优化模式(适用于所有模型):
model_cpu_offload
:使用后模型卸载至CPU,节省部分显存
model_cpu_offload_and_qfloat8
:模型卸载至CPU且进行8位量化,显著节省显存(会轻微影响质量)
sequential_cpu_offload
:逐层卸载至CPU,速度最慢但显存占用最低
💡 显存充足时推荐使用model_cpu_offload
b、通过ComfyUI
详见ComfyUI专属文档
c、Python脚本运行
- 步骤1:下载模型权重至指定目录
- 步骤2:根据需求运行对应示例脚本(以CogVideoX-Fun为例):
- 文生视频:
- 修改
examples/cogvideox_fun/predict_t2v.py
中的prompt、负向提示词等参数
- 运行后结果保存在
samples/cogvideox-fun-videos
- 图生视频:
- 设置
validation_image_start
(首帧)和validation_image_end
(尾帧)路径
- 运行
examples/cogvideox_fun/predict_i2v.py
,结果输出至samples/cogvideox-fun-videos_i2v
- 视频生视频:
- 指定
validation_video
参考视频路径(如示例吉他视频)
- 运行
examples/cogvideox_fun/predict_v2v.py
,结果保存在samples/cogvideox-fun-videos_v2v
- 控制生视频:
- 准备控制视频(如姿态控制示例)
- 运行
examples/cogvideox_fun/predict_v2v_control.py
,结果输出至samples/cogvideox-fun-videos_v2v_control
- 步骤3:如需加载自定义模型/LoRA,修改脚本中的
lora_path
参数
d、WebUI交互
支持所有生成模式的可视化操作:
- 步骤1:下载模型权重
- 步骤2:运行
examples/cogvideox_fun/app.py
启动Gradio界面
- 步骤3:选择模型并设置参数,点击生成按钮
参考文献
- CogVideo论文:https://github.com/THUDM/CogVideo/
- EasyAnimate框架:https://github.com/aigc-apps/EasyAnimate
- Wan2.1项目:https://github.com/Wan-Video/Wan2.1/
- ComfyUI扩展节点:https://github.com/kijai/ComfyUI-KJNodes
- EasyAnimate插件:https://github.com/kijai/ComfyUI-EasyAnimateWrapper
- 镜头控制插件:https://github.com/chaojie/ComfyUI-CameraCtrl-Wrapper
- CameraCtrl原项目:https://github.com/hehao13/CameraCtrl
许可证
本项目采用 Apache 2.0 许可证。