许可证: 其他
许可证链接: https://modelscope.cn/models/ZhipuAI/CogVideoX-5B/file/view/master?fileName=LICENSE&status=0
语言:
- 英文
标签:
- cogvideox趣味版
- 视频生成
- 阿里云PAI
- 文本转视频
- 图像转视频
开发团队:
- 阿里云PAI/CogVideoX趣味版-5b
推理支持: 否
CogVideoX趣味版
😊 欢迎使用!
English | 简体中文
目录
简介
CogVideoX趣味版是基于CogVideoX架构改进的生成管线,是一款生成条件更自由的视频生成工具,可用于生成AI图像/视频、训练Diffusion Transformer基础模型与Lora模型。我们支持直接加载预训练的CogVideoX趣味版模型进行预测,生成6秒左右、8fps(1~49帧)的不同分辨率视频,也支持用户训练自定义基础模型与Lora模型实现风格转换。
我们将逐步支持多平台快速启动,详见快速启动。
最新特性:
- 代码开源!现已支持Windows和Linux系统,支持2B/5B参数模型生成256x256x49至1024x1024x49任意分辨率的视频。[2024.09.18]
核心功能:
我们的UI界面如下:

快速启动
1. 云端使用:阿里云DSW/Docker
a. 通过阿里云DSW
DSW提供免费GPU时长,用户可申请一次,有效期3个月。
阿里云免费资源中心提供免费GPU,在PAI-DSW中5分钟即可启动CogVideoX趣味版。

b. 通过ComfyUI
我们的ComfyUI工作流如下,详情参见ComfyUI说明文档。

c. 通过Docker
确保已安装NVIDIA驱动和CUDA环境后执行:
docker pull mybigpai-public-registry.cn-beijing.cr.aliyuncs.com/easycv/torch_cuda:cogvideox_fun
docker run -it -p 7860:7860 --network host --gpus all --security-opt seccomp:unconfined --shm-size 200g mybigpai-public-registry.cn-beijing.cr.aliyuncs.com/easycv/torch_cuda:cogvideox_fun
git clone https://github.com/aigc-apps/CogVideoX-Fun.git
cd CogVideoX-Fun
mkdir models/Diffusion_Transformer
mkdir models/Personalized_Model
wget https://pai-aigc-photog.oss-cn-hangzhou.aliyuncs.com/cogvideox_fun/Diffusion_Transformer/CogVideoX-Fun-2b-InP.tar.gz -O models/Diffusion_Transformer/CogVideoX-Fun-2b-InP.tar.gz
cd models/Diffusion_Transformer/
tar -xvf CogVideoX-Fun-2b-InP.tar.gz
cd ../../
2. 本地安装:环境配置
a. 环境要求
已验证运行环境:
Windows配置:
- 系统:Windows 10
- Python: 3.10/3.11
- PyTorch: 2.2.0
- CUDA: 11.8/12.1
- cuDNN: 8+
- GPU: NVIDIA 3060 12G / 3090 24G
Linux配置:
- 系统:Ubuntu 20.04/CentOS
- Python: 3.10/3.11
- PyTorch: 2.2.0
- CUDA: 11.8/12.1
- cuDNN: 8+
- GPU: V100 16G / A10 24G / A100 40G/80G
需预留约60GB磁盘空间。
b. 权重存放
建议按以下结构存放模型权重:
📦 models/
├── 📂 Diffusion_Transformer/
│ ├── 📂 CogVideoX-Fun-2b-InP/
│ └── 📂 CogVideoX-Fun-5b-InP/
├── 📂 Personalized_Model/
│ └── 用户训练的基础模型/Lora模型(供UI加载)
视频作品
以下展示均为图生视频成果。
CogVideoX-Fun-5B
1024分辨率
768分辨率
512分辨率
CogVideoX-Fun-2B
768分辨率
使用方法
1. 生成功能
a. 视频生成
i、运行Python脚本
- 步骤1:下载模型权重至models目录
- 步骤2:修改predict_t2v.py中的prompt、负向提示词、引导系数和随机种子
- 步骤3:运行脚本,结果将保存在samples/cogvideox-fun-videos-t2v目录
- 步骤4:如需加载自定义基础模型或Lora模型,请修改predict_t2v.py中的模型路径
ii、通过UI界面
- 步骤1:下载模型权重至models目录
- 步骤2:运行app.py启动gradio界面
- 步骤3:选择模型并输入参数,生成结果将保存在sample目录
iii、通过ComfyUI
详见ComfyUI说明文档。
2. 模型训练
完整训练流程包含数据预处理和Video DiT训练。
a. 数据预处理
我们提供了基于图片训练Lora模型的[教程wiki](https://github.com/aigc-apps/CogVideoX-Fun/wiki/Training-Lora)。
完整的长视频切割、清洗、标注流程请参考视频标注说明。
文生视频训练数据集需按此结构组织:
📦 项目目录/
├── 📂 datasets/
│ ├── 📂 internal_datasets/
│ ├── 📂 train/
│ │ ├── 📄 00000001.mp4
│ │ ├── 📄 00000002.jpg
│ │ └── ...
│ └── 📄 数据集元数据.json
元数据文件示例(支持相对/绝对路径):
[
{
"file_path": "train/00000001.mp4",
"text": "一群穿西装戴墨镜的年轻人在城市街道行走",
"type": "video"
},
{
"file_path": "/mnt/data/train/00000001.jpg",
"text": "城市街景",
"type": "image"
}
]
b. Video DiT训练
根据数据路径类型修改scripts/train.sh配置:
export DATASET_NAME="datasets/internal_datasets/"
export DATASET_META_NAME="datasets/internal_datasets/数据集元数据.json"
train_data_format="normal"
export DATASET_NAME=""
export DATASET_META_NAME="/mnt/data/数据集元数据.json"
启动训练:
sh scripts/train.sh
参数配置详见训练说明和Lora训练说明。
模型下载
模型名称 |
大小 |
Hugging Face |
魔搭社区 |
说明 |
CogVideoX-Fun-2b-InP |
压缩包9.7GB/解压后13GB |
🤗链接 |
😄链接 |
官方图生视频模型,支持512/768/1024/1280分辨率,49帧8fps生成 |
CogVideoX-Fun-5b-InP |
压缩包16GB/解压后20GB |
🤗链接 |
😄链接 |
官方高性能版,支持相同分辨率规格 |
未来规划
参考文献
- CogVideo原项目: https://github.com/THUDM/CogVideo/
- EasyAnimate框架: https://github.com/aigc-apps/EasyAnimate
许可协议
本项目采用Apache License 2.0。
CogVideoX-2B模型(含Transformers模块、VAE模块)遵循Apache 2.0协议。
CogVideoX-5B模型(Transformer模块)基于CogVideoX许可协议发布。