许可证:Apache-2.0
支持语言:
- 英文
- 中文
任务类型:文本生成视频
库名称:diffusers
标签:
- 视频
- 视频生成
万趣
😊 欢迎使用!


English | 简体中文
目录
模型地址
V1.0版本:
名称 |
存储大小 |
Hugging Face |
Model Scope |
描述 |
Wan2.1-Fun-1.3B-InP |
19.0 GB |
🤗链接 |
😄链接 |
Wan2.1-Fun-1.3B文本生成视频权重,支持多分辨率训练及首尾帧预测。 |
Wan2.1-Fun-14B-InP |
47.0 GB |
🤗链接 |
😄链接 |
Wan2.1-Fun-14B文本生成视频权重,支持多分辨率训练及首尾帧预测。 |
Wan2.1-Fun-1.3B-Control |
19.0 GB |
🤗链接 |
😄链接 |
Wan2.1-Fun-1.3B视频控制权重,支持Canny、Depth、Pose、MLSD等多种控制条件及轨迹控制。支持512/768/1024多分辨率视频生成,训练帧率为16fps/81帧,支持多语言输入。 |
Wan2.1-Fun-14B-Control |
47.0 GB |
🤗链接 |
😄链接 |
Wan2.1-Fun-14B视频控制权重,支持多种控制条件及轨迹控制,多分辨率视频生成能力与多语言支持同上。 |
视频作品
Wan2.1-Fun-14B-InP 与 Wan2.1-Fun-1.3B-InP
(此处保留原视频表格结构,内容翻译略)
Wan2.1-Fun-14B-Control 与 Wan2.1-Fun-1.3B-Control
(此处保留原视频表格结构,内容翻译略)
快速启动
1. 云端使用:阿里云DSW/Docker
a. 通过阿里云DSW
DSW提供免费GPU时长,申请后3个月内有效。

b. 通过ComfyUI
界面说明详见ComfyUI README。
c. 通过Docker
确保已安装显卡驱动与CUDA后执行:
docker pull mybigpai-public-registry.cn-beijing.cr.aliyuncs.com/easycv/torch_cuda:cogvideox_fun
docker run -it -p 7860:7860 --network host --gpus all --security-opt seccomp:unconfined --shm-size 200g 镜像名称
git clone https://github.com/aigc-apps/CogVideoX-Fun.git
2. 本地安装
a. 环境要求
已验证环境:
- Windows:Win10 + Python3.10/3.11 + CUDA11.8/12.1 + 显卡3060(12G)/3090(24G)
- Linux:Ubuntu20.04/CentOS + Python3.10/3.11 + CUDA11.8/12.1 + 显卡V100(16G)/A10(24G)/A100(40G/80G)
- 需60GB可用磁盘空间
b. 权重放置
按以下结构存放模型:
models/
├── Diffusion_Transformer/ # 存放主模型权重
│ ├── CogVideoX-Fun-V1.1-5b-InP/
│ └── Wan2.1-Fun-14B-InP/
└── Personalized_Model/ # 存放个性化训练模型
使用方法
1. 视频生成
a. 显存优化方案
提供三种模式应对不同显存需求:
model_cpu_offload
:基础显存节省
model_cpu_offload_and_qfloat8
:量化显存优化(会轻微影响质量)
sequential_cpu_offload
:最大显存节省(速度较慢)
b. 通过ComfyUI
详见ComfyUI指南。
c. Python脚本运行
- 文生视频:修改
predict_t2v.py
中的提示词参数后运行,结果保存至samples/
目录。
- 图生视频:需设置首尾帧图片路径,运行
predict_i2v.py
。
- 视频生视频:需提供参考视频(如吉他演示视频),运行
predict_v2v.py
。
- 控制生视频:需提供控制视频(如姿态演示视频),运行
predict_v2v_control.py
。
d. WebUI界面
运行app.py
启动交互界面,支持所有生成模式,结果自动保存。
参考文献
- CogVideo:清华大学开源项目
- EasyAnimate:阿里云视频生成工具
- Wan2.1:万像视频生成框架
许可证
采用Apache 2.0许可证。