CogVideoX-Fun-2b-InP开源视频生成模型 - 支持文图转视频及多分辨率生成

Cogvideox Fun 2b InP

由 alibaba-pai 开发

基于CogVideoX架构改进的视频生成模型，支持文本/图像转视频和多分辨率生成

文本生成视频英语开源协议:其他 #高分辨率视频生成 #多帧率支持 #个性化风格训练

下载量 52

发布时间 : 9/18/2024

模型简介

CogVideoX趣味版是基于CogVideoX架构改进的生成管线，提供更自由的生成条件，可用于AI图像/视频创作、Diffusion Transformer基模型及Lora模型训练。支持直接加载预训练模型生成6秒左右（1~49帧，8fps）的多分辨率视频，也支持用户训练个性化风格模型。

模型特点

多分辨率支持

支持256x256至1024x1024任意分辨率的视频生成

长视频生成

可生成6秒左右（1~49帧，8fps）的视频

个性化训练

支持用户训练个性化风格模型和Lora模型

多平台部署

支持Windows/Linux系统，提供云端DSW/Docker部署方案

模型能力

文本转视频

图像转视频

视频风格迁移

个性化视频生成

使用案例

创意内容生成

AI艺术创作

根据文本描述生成创意视频内容

6秒左右的创意视频

短视频制作

将静态图像转化为动态视频

8fps的流畅短视频

个性化训练

风格化视频生成

训练特定风格的视频生成模型

个性化风格视频输出

🚀 CogVideoX-Fun

CogVideoX-Fun是一个基于CogVideoX结构修改后的pipeline，生成条件更自由。可用于生成AI图片与视频、训练Diffusion Transformer的基线模型与Lora模型。支持从已训练好的模型直接预测，生成不同分辨率、6秒左右、fps8的视频（1 ~ 49帧），也支持用户训练自己的基线模型与Lora模型进行风格变换。

🚀 快速开始

1. 云使用: AliyunDSW/Docker

a. 通过阿里云 DSW

DSW 有免费 GPU 时间，用户可申请一次，申请后3个月内有效。阿里云在Freetier提供免费GPU时间，获取并在阿里云PAI-DSW中使用，5分钟内即可启动CogVideoX-Fun。

b. 通过ComfyUI

我们的ComfyUI界面如下，具体查看ComfyUI README。 workflow graph

c. 通过docker

使用docker的情况下，请保证机器中已经正确安装显卡驱动与CUDA环境，然后依次执行以下命令：

# pull image
docker pull mybigpai-public-registry.cn-beijing.cr.aliyuncs.com/easycv/torch_cuda:cogvideox_fun

# enter image
docker run -it -p 7860:7860 --network host --gpus all --security-opt seccomp:unconfined --shm-size 200g mybigpai-public-registry.cn-beijing.cr.aliyuncs.com/easycv/torch_cuda:cogvideox_fun

# clone code
git clone https://github.com/aigc-apps/CogVideoX-Fun.git

# enter CogVideoX-Fun's dir
cd CogVideoX-Fun

# download weights
mkdir models/Diffusion_Transformer
mkdir models/Personalized_Model

wget https://pai-aigc-photog.oss-cn-hangzhou.aliyuncs.com/cogvideox_fun/Diffusion_Transformer/CogVideoX-Fun-2b-InP.tar.gz -O models/Diffusion_Transformer/CogVideoX-Fun-2b-InP.tar.gz

cd models/Diffusion_Transformer/
tar -xvf CogVideoX-Fun-2b-InP.tar.gz
cd ../../

2. 本地安装: 环境检查/下载/安装

a. 环境检查

我们已验证CogVideoX-Fun可在以下环境中执行：

Windows 的详细信息：

操作系统 Windows 10
python: python3.10 & python3.11
pytorch: torch2.2.0
CUDA: 11.8 & 12.1
CUDNN: 8+
GPU： Nvidia-3060 12G & Nvidia-3090 24G

Linux 的详细信息：

操作系统 Ubuntu 20.04, CentOS
python: python3.10 & python3.11
pytorch: torch2.2.0
CUDA: 11.8 & 12.1
CUDNN: 8+
GPU：Nvidia-V100 16G & Nvidia-A10 24G & Nvidia-A100 40G & Nvidia-A100 80G

我们需要大约 60GB 的可用磁盘空间，请检查！

b. 权重放置

我们最好将权重按照指定路径进行放置：

📦 models/
├── 📂 Diffusion_Transformer/
│   ├── 📂 CogVideoX-Fun-2b-InP/
│   └── 📂 CogVideoX-Fun-5b-InP/
├── 📂 Personalized_Model/
│   └── your trained trainformer model / your trained lora model (for UI load)

✨ 主要特性

CogVideoX-Fun是基于CogVideoX结构修改后的pipeline，具有以下特性：

生成条件更自由，可用于生成AI图片与视频、训练Diffusion Transformer的基线模型与Lora模型。
支持从已经训练好的CogVideoX-Fun模型直接进行预测，生成不同分辨率，6秒左右、fps8的视频（1 ~ 49帧）。
支持用户训练自己的基线模型与Lora模型，进行一定的风格变换。
新特性：创建代码！现在支持 Windows 和 Linux。支持2b与5b最大256x256x49到1024x1024x49的任意分辨率的视频生成。[ 2024.09.18 ]

我们的ui界面如下:

🎥 视频作品

所展示的结果都是图生视频获得。

CogVideoX-Fun-5B

Resolution-1024

Resolution-768

Resolution-512

CogVideoX-Fun-2B

Resolution-768

💻 使用示例

1. 生成

a. 视频生成

i、运行python文件

步骤1：下载对应权重放入models文件夹。
步骤2：在predict_t2v.py文件中修改prompt、neg_prompt、guidance_scale和seed。
步骤3：运行predict_t2v.py文件，等待生成结果，结果保存在samples/cogvideox-fun-videos-t2v文件夹中。
步骤4：如果想结合自己训练的其他backbone与Lora，则看情况修改predict_t2v.py中的predict_t2v.py和lora_path。

ii、通过ui界面

步骤1：下载对应权重放入models文件夹。
步骤2：运行app.py文件，进入gradio页面。
步骤3：根据页面选择生成模型，填入prompt、neg_prompt、guidance_scale和seed等，点击生成，等待生成结果，结果保存在sample文件夹中。

iii、通过comfyui

具体查看ComfyUI README。

2. 模型训练

一个完整的CogVideoX-Fun训练链路应该包括数据预处理和Video DiT训练。

a. 数据预处理

我们给出了一个简单的demo通过图片数据训练lora模型，详情可以查看wiki。

一个完整的长视频切分、清洗、描述的数据预处理链路可以参考video caption部分的README进行。

如果期望训练一个文生图视频的生成模型，您需要以这种格式排列数据集。

📦 project/
├── 📂 datasets/
│   ├── 📂 internal_datasets/
│       ├── 📂 train/
│       │   ├── 📄 00000001.mp4
│       │   ├── 📄 00000002.jpg
│       │   └── 📄 .....
│       └── 📄 json_of_internal_datasets.json

json_of_internal_datasets.json是一个标准的json文件。json中的file_path可以被设置为相对路径，如下所示：

[
    {
      "file_path": "train/00000001.mp4",
      "text": "A group of young men in suits and sunglasses are walking down a city street.",
      "type": "video"
    },
    {
      "file_path": "train/00000002.jpg",
      "text": "A group of young men in suits and sunglasses are walking down a city street.",
      "type": "image"
    },
    .....
]

你也可以将路径设置为绝对路径：

[
    {
      "file_path": "/mnt/data/videos/00000001.mp4",
      "text": "A group of young men in suits and sunglasses are walking down a city street.",
      "type": "video"
    },
    {
      "file_path": "/mnt/data/train/00000001.jpg",
      "text": "A group of young men in suits and sunglasses are walking down a city street.",
      "type": "image"
    },
    .....
]

b. Video DiT训练

如果数据预处理时，数据的格式为相对路径，则进入scripts/train.sh进行如下设置。

export DATASET_NAME="datasets/internal_datasets/"
export DATASET_META_NAME="datasets/internal_datasets/json_of_internal_datasets.json"

...

train_data_format="normal"

如果数据的格式为绝对路径，则进入scripts/train.sh进行如下设置。

export DATASET_NAME=""
export DATASET_META_NAME="/mnt/data/json_of_internal_datasets.json"

最后运行scripts/train.sh。

sh scripts/train.sh

关于一些参数的设置细节，可以查看Readme Train与Readme Lora

📚 详细文档

模型地址

名称	存储空间	Hugging Face	Model Scope	描述
CogVideoX-Fun-2b-InP.tar.gz	解压前 9.7 GB / 解压后 13.0 GB	🤗Link	😄Link	官方的图生视频权重。支持多分辨率（512，768，1024，1280）的视频预测，以49帧、每秒8帧进行训练
CogVideoX-Fun-5b-InP.tar.gz	解压前 16.0GB / 解压后 20.0 GB	🤗Link	😄Link	官方的图生视频权重。支持多分辨率（512，768，1024，1280）的视频预测，以49帧、每秒8帧进行训练