许可证: 其他
许可证链接: https://modelscope.cn/models/ZhipuAI/CogVideoX-5B/file/view/master?fileName=LICENSE&status=0
语言:
- 英文
标签:
- cogvideox趣味版
- 视频生成
- 阿里云PAI
- 文本转视频
- 图像转视频
开发团队:
- 阿里云PAI/CogVideoX趣味版-5B
推理支持: 否
CogVideoX趣味版
😊 欢迎体验!
English | 简体中文
目录
简介
CogVideoX趣味版是基于CogVideoX架构改进的生成管线,提供更自由的生成条件,可用于AI图像/视频创作、Diffusion Transformer基模型及Lora模型训练。支持直接加载预训练模型生成6秒左右(1~49帧,8fps)的多分辨率视频,也支持用户训练个性化风格模型。
我们将逐步扩展多平台启动支持,详见快速启动。
最新特性:
- 代码开源!现已支持Windows/Linux系统,2B/5B模型可生成256x256x49至1024x1024x49任意分辨率的视频。[2024.09.18]
核心功能:
UI界面展示:

快速启动
1. 云端部署:阿里云DSW/Docker
a. 通过阿里云DSW
DSW提供免费GPU时长,申请后3个月内有效。

b. 通过ComfyUI
操作流程详见ComfyUI说明文档。

c. 通过Docker
确保已安装NVIDIA驱动和CUDA环境后执行:
docker pull mybigpai-public-registry.cn-beijing.cr.aliyuncs.com/easycv/torch_cuda:cogvideox_fun
docker run -it -p 7860:7860 --network host --gpus all --security-opt seccomp:unconfined --shm-size 200g mybigpai-public-registry.cn-beijing.cr.aliyuncs.com/easycv/torch_cuda:cogvideox_fun
git clone https://github.com/aigc-apps/CogVideoX-Fun.git
cd CogVideoX-Fun
mkdir -p models/Diffusion_Transformer models/Personalized_Model
wget https://pai-aigc-photog.oss-cn-hangzhou.aliyuncs.com/cogvideox_fun/Diffusion_Transformer/CogVideoX-Fun-2b-InP.tar.gz -O models/Diffusion_Transformer/CogVideoX-Fun-2b-InP.tar.gz
cd models/Diffusion_Transformer && tar -xvf CogVideoX-Fun-2b-InP.tar.gz && cd ../..
2. 本地安装
a. 环境要求
已验证环境:
- Windows: Win10 + Python3.10/3.11 + PyTorch2.2.0 + CUDA11.8/12.1 + cuDNN8+
GPU:NVIDIA 3060 12G/3090 24G
- Linux: Ubuntu20.04/CentOS + Python3.10/3.11 + PyTorch2.2.0 + CUDA11.8/12.1 + cuDNN8+
GPU:V100 16G/A10 24G/A100 40G/80G
需约60GB可用磁盘空间。
b. 权重放置
建议按以下结构存放模型权重:
📦 models/
├── 📂 Diffusion_Transformer/
│ ├── 📂 CogVideoX-Fun-2b-InP/
│ └── 📂 CogVideoX-Fun-5b-InP/
└── 📂 Personalized_Model/
└── 自定义训练模型/微调模型
视频作品
以下为图生视频效果展示:
CogVideoX-Fun-5B
1024分辨率
768分辨率
512分辨率
CogVideoX-Fun-2B
768分辨率
使用指南
1. 视频生成
a. Python脚本方式
- 下载模型权重至models目录
- 修改predict_t2v.py中的prompt/负向提示/引导系数/随机种子
- 运行脚本,结果保存在samples/cogvideox-fun-videos-t2v
- 如需加载自定义模型/Lora,修改predict_t2v.py中的模型路径
b. Gradio界面
- 放置模型权重
- 运行app.py启动Web界面
- 选择模型并设置参数后生成视频
c. ComfyUI方式
详见ComfyUI说明文档。
2. 模型训练
完整流程包括数据预处理和Video DiT训练。
a. 数据预处理
数据集结构示例:
[
{
"file_path": "train/000001.mp4",
"text": "穿西装的年轻人们在城市街道行走",
"type": "video"
},
{
"file_path": "/mnt/data/images/000001.jpg",
"text": "戴墨镜的猫坐在沙发上",
"type": "image"
}
]
b. Video DiT训练
- 相对路径配置:
export DATASET_NAME="datasets/internal_datasets/"
export DATASET_META_NAME="datasets/internal_datasets/metadata.json"
train_data_format="normal"
- 绝对路径配置:
export DATASET_NAME=""
export DATASET_META_NAME="/mnt/data/metadata.json"
运行训练脚本:
sh scripts/train.sh
详细参数说明见训练指南和Lora训练指南。
模型下载
模型名称 |
大小 |
Hugging Face |
魔搭社区 |
说明 |
CogVideoX-Fun-2b-InP |
9.7GB/13GB |
🤗链接 |
😄链接 |
官方图生视频模型,支持512-1280分辨率,49帧@8fps |
CogVideoX-Fun-5b-InP |
16GB/20GB |
🤗链接 |
😄链接 |
增强版图生视频模型 |
未来规划
参考文献
- CogVideo: https://github.com/THUDM/CogVideo/
- EasyAnimate: https://github.com/aigc-apps/EasyAnimate
许可协议
本项目采用Apache License 2.0。
CogVideoX-2B模型(含Transformers/VAE模块)遵循Apache 2.0协议。
CogVideoX-5B Transformer模块采用CogVideoX许可证。