CogVideoX - 5b开源视频生成模型，以大模型规模产出高质量视频内容

首页

Cogvideox 5b

由 vdo 开发

CogVideoX是源自清影的视频生成模型开源版本，5B版本具有更大的模型规模，能生成更高质量的视频内容。

文本生成视频英语开源协议:其他 #高清视频生成 #多精度推理 #大模型优化

下载量 13

发布时间 : 8/28/2024

模型简介

CogVideoX是一个文本生成视频的模型，能够根据文本描述生成6秒时长的720x480分辨率视频，帧率为每秒8帧。

模型特点

高质量视频生成

5B参数规模提供更高质量的视频生成效果

多精度支持

支持BF16、FP16、FP32、FP8、INT8等多种推理精度

优化显存占用

通过diffusers库的优化技术降低显存需求

固定视频规格

生成6秒时长、720x480分辨率、8fps帧率的视频

模型能力

文本到视频生成

创意视频创作

场景可视化

使用案例

创意内容生成

艺术场景生成

根据诗意描述生成艺术性视频场景

如花园、暴雨等场景的生动呈现

故事可视化

将文字故事转化为视频片段

如宇航员与外星人相遇等场景

教育演示

概念可视化

将抽象概念转化为直观视频

🚀 CogVideoX-5B

CogVideoX-5B是一个开源的视频生成模型，源自清影。它能根据文本输入生成高质量的视频，为视频创作带来了新的可能。

📄 中文阅读 | 🤗 Huggingface Space | 🌐 Github | 📜 arxiv

🚀 快速开始

本模型支持使用huggingface diffusers库进行部署。你可以按照以下步骤进行部署：

建议访问我们的GitHub，查看相关的提示词优化和转换方法，以获得更好的体验。

1. 安装所需依赖

# diffusers>=0.30.1
# transformers>=4.44.2
# accelerate>=0.33.0 (建议从源代码安装)
# imageio-ffmpeg>=0.5.1
pip install --upgrade transformers accelerate diffusers imageio-ffmpeg

2. 运行代码

import torch
from diffusers import CogVideoXPipeline
from diffusers.utils import export_to_video

prompt = "A panda, dressed in a small, red jacket and a tiny hat, sits on a wooden stool in a serene bamboo forest. The panda's fluffy paws strum a miniature acoustic guitar, producing soft, melodic tunes. Nearby, a few other pandas gather, watching curiously and some clapping in rhythm. Sunlight filters through the tall bamboo, casting a gentle glow on the scene. The panda's face is expressive, showing concentration and joy as it plays. The background includes a small, flowing stream and vibrant green foliage, enhancing the peaceful and magical atmosphere of this unique musical performance."

pipe = CogVideoXPipeline.from_pretrained(
    "THUDM/CogVideoX-5b",
    torch_dtype=torch.bfloat16
)

pipe.enable_model_cpu_offload()
pipe.vae.enable_tiling()

video = pipe(
    prompt=prompt,
    num_videos_per_prompt=1,
    num_inference_steps=50,
    num_frames=49,
    guidance_scale=6,
    generator=torch.Generator(device="cuda").manual_seed(42),
).frames[0]

export_to_video(video, "output.mp4", fps=8)

✨ 主要特性

CogVideoX是源自清影的视频生成模型的开源版本。以下表格展示了我们目前提供的视频生成模型列表及其基础信息：

模型名称	CogVideoX-2B	CogVideoX-5B (本仓库)
模型描述	入门级模型，兼顾兼容性。运行和二次开发成本低。	更大的模型，具有更高的视频生成质量和更好的视觉效果。
推理精度	*FP16 (推荐)*，BF16，FP32，FP8，INT8，不支持INT4	BF16 (推荐)，FP16，FP32，FP8*，INT8，不支持INT4
单GPU显存消耗	FP16：使用 SAT 为18GB / 使用diffusers为12.5GB* INT8：使用diffusers为7.8GB*	BF16：使用 SAT 为26GB / 使用diffusers为20.7GB* INT8：使用diffusers为11.4GB*
多GPU推理显存消耗	FP16：使用diffusers为10GB*	BF16：使用diffusers为15GB*
推理速度 (步骤 = 50，FP/BF16)	单A100：~90秒单H100：~45秒	单A100：~180秒单H100：~90秒
微调精度	FP16	BF16
微调显存消耗 (每GPU)	47 GB (bs=1, LORA) 61 GB (bs=2, LORA) 62GB (bs=1, SFT)	63 GB (bs=1, LORA) 80 GB (bs=2, LORA) 75GB (bs=1, SFT)
提示词语言	英文*	英文*
提示词长度限制	226 Tokens	226 Tokens
视频长度	6秒	6秒
帧率	8帧/秒	8帧/秒
视频分辨率	720 x 480，不支持其他分辨率 (包括微调)	720 x 480，不支持其他分辨率 (包括微调)
位置编码	3d_sincos_pos_embed	3d_rope_pos_embed

数据说明

使用diffusers库进行测试时，启用了enable_model_cpu_offload()选项和pipe.vae.enable_tiling()优化。此解决方案尚未在NVIDIA A100/H100以外的设备上测试实际显存/内存使用情况。一般来说，该解决方案可适用于所有NVIDIA安培架构及以上的设备。如果禁用优化，显存使用量将显著增加，峰值显存约为表中值的3倍。
进行多GPU推理时，需要禁用enable_model_cpu_offload()优化。
使用INT8模型会导致推理速度降低。这是为了适应显存较低的GPU，使推理能够在视频质量损失最小的情况下正常运行，但推理速度会显著降低。
2B模型使用FP16精度进行训练，而5B模型使用BF16精度进行训练。建议使用模型训练时使用的精度进行推理。
FP8精度必须在NVIDIA H100及以上设备上使用，需要从源代码安装torch、torchao、diffusers和accelerate Python包。建议使用CUDA 12.4。
推理速度测试也使用了上述显存优化方案。如果不进行显存优化，推理速度将提高约10%。只有使用diffusers的模型支持量化。

注意事项

使用 SAT 对SAT版本的模型进行推理和微调。欢迎访问我们的GitHub获取更多信息。

💻 使用示例

基础用法

import torch
from diffusers import CogVideoXPipeline
from diffusers.utils import export_to_video

prompt = "A panda, dressed in a small, red jacket and a tiny hat, sits on a wooden stool in a serene bamboo forest. The panda's fluffy paws strum a miniature acoustic guitar, producing soft, melodic tunes. Nearby, a few other pandas gather, watching curiously and some clapping in rhythm. Sunlight filters through the tall bamboo, casting a gentle glow on the scene. The panda's face is expressive, showing concentration and joy as it plays. The background includes a small, flowing stream and vibrant green foliage, enhancing the peaceful and magical atmosphere of this unique musical performance."

pipe = CogVideoXPipeline.from_pretrained(
    "THUDM/CogVideoX-5b",
    torch_dtype=torch.bfloat16
)

pipe.enable_model_cpu_offload()
pipe.vae.enable_tiling()

video = pipe(
    prompt=prompt,
    num_videos_per_prompt=1,
    num_inference_steps=50,
    num_frames=49,
    guidance_scale=6,
    generator=torch.Generator(device="cuda").manual_seed(42),
).frames[0]

export_to_video(video, "output.mp4", fps=8)

📚 详细文档

欢迎访问我们的github，你将在那里找到：

更详细的技术细节和代码解释。
提示词的优化和转换。
SAT版本模型的推理和微调，甚至预发布内容。
项目更新日志动态，更多互动机会。
CogVideoX工具链，帮助你更好地使用模型。
INT8模型推理代码支持。

📄 许可证

本模型根据 CogVideoX LICENSE 发布。

📚 引用

@article{yang2024cogvideox,
  title={CogVideoX: Text-to-Video Diffusion Models with An Expert Transformer},
  author={Yang, Zhuoyi and Teng, Jiayan and Zheng, Wendi and Ding, Ming and Huang, Shiyu and Xu, Jiazheng and Yang, Yuanming and Hong, Wenyi and Zhang, Xiaohan and Feng, Guanyu and others},
  journal={arXiv preprint arXiv:2408.06072},
  year={2024}
}

🎥 演示展示

Video Gallery with Captions

花园里，五彩斑斓的蝴蝶在花丛中翩翩起舞，它们轻盈的翅膀在花瓣上投下斑驳的影子。远处，一座宏伟的喷泉潺潺流淌，那有节奏的水声宛如一首舒缓的乐章。在一棵高大的树下，一把孤独的木椅静静伫立，仿佛在邀请人们前来享受这份宁静，感受大自然的拥抱。

一个小男孩低着头，脸上写满了坚定，在倾盆大雨中奋力奔跑。远处，闪电划破长空，雷声滚滚而来。豆大的雨点砸在地面上，溅起层层水花，仿佛是天空愤怒的宣泄。在遥远的背景中，一座温馨的小屋隐隐约约，那是安全和温暖的象征，激励着小男孩勇往直前，不屈不挠地与恶劣的天气作斗争。

在火星那粉红色的天空下，一位身着宇航服的宇航员伸出手，与一位皮肤闪烁着蓝色光芒的外星生物握手。宇航员的靴子上沾满了火星的红色尘土，而身后那艘银色的火箭则是人类智慧的象征。在这片荒凉而美丽的火星景观中，这两位来自不同世界的代表进行了一次历史性的问候。

一位神情安详的老人坐在海边，身旁放着一杯热气腾腾的茶。他手持画笔，专注地在画布上创作着油画。画布靠在一张破旧的小桌子上，海风轻轻拂过他的银发，吹动着他宽松的白色衬衫。咸咸的海风为他的作品增添了一份独特的韵味，夕阳的余晖洒在平静的海面上，画布上捕捉到了这绚丽的色彩，整个场景充满了宁静与灵感。

在一家昏暗的酒吧里，紫色的灯光洒在一位成熟男人的脸上。他若有所思地眨着眼睛，特写镜头聚焦在他沉思的表情上，背景被巧妙地虚化，营造出一种神秘的氛围，让人感受到他内心的思考。

一只金色的寻回犬戴着时尚的黑色太阳镜，长长的毛发在微风中飘动。它欢快地在刚刚被小雨洗礼过的屋顶露台上奔跑。从远处看，它越跑越近，尾巴欢快地摇个不停，身后的混凝土上还闪烁着水珠。阴沉的天空为这只充满活力的狗狗提供了一个戏剧性的背景，凸显出它那金色的亮丽毛发。

在一个阳光明媚的日子里，湖岸边排列着一排柳树，它们细长的枝条在微风中轻轻摇曳。平静的湖面倒映着湛蓝的天空，几只优雅的天鹅在水中缓缓游动，留下一道道细腻的涟漪，打破了湖面如镜的平静。整个场景宁静而美丽，柳树的绿色枝叶为这些和平的鸟儿提供了一幅如画的背景。

一位中国母亲穿着柔和的 pastel 色长袍，在温馨的育儿室里轻轻地摇晃着一把摇椅。昏暗的卧室里，天花板上悬挂着可爱的婴儿玩具，它们的影子在墙壁上舞动。她的宝宝裹在一条精致的图案毛毯里，靠在她的胸前。宝宝之前的哭声已经被满足的咕咕声所取代，母亲温柔的声音渐渐将宝宝哄入梦乡。空气中弥漫着薰衣草的香气，增添了一份宁静的氛围，附近夜灯发出的温暖橙色光芒照亮了这温馨的一幕，捕捉到了母爱与安慰的美好瞬间。