license: other
license_link: https://huggingface.co/THUDM/CogVideoX-5b-I2V/blob/main/LICENSE
language:
- en
tags:
- 视频生成
- thudm
- 图像转视频
inference: false
CogVideoX1.5-5B-I2V
📄 中文阅读 |
🤗 Huggingface Space |
🌐 Github |
📜 arxiv
📍 访问 清影 和 API 平台 体验商用视频生成模型
模型介绍
CogVideoX 是一个类似于 清影 的开源视频生成模型。
以下是本代视频生成模型的信息列表:
模型名称 |
CogVideoX1.5-5B |
CogVideoX1.5-5B-I2V (当前仓库) |
视频分辨率 |
1360 * 768 |
Min(W, H) = 768 768 ≤ Max(W, H) ≤ 1360 Max(W, H) % 16 = 0 |
推理精度 |
BF16 (推荐), FP16, FP32, FP8*, INT8, 不支持 INT4 |
单 GPU 推理显存消耗 |
BF16: 最低 9GB* |
多 GPU 推理显存消耗 |
BF16: 使用 diffusers 时 24GB*
|
推理速度 (步数 = 50, FP/BF16) |
单 A100: ~1000 秒 (5 秒视频) 单 H100: ~550 秒 (5 秒视频) |
提示语言 |
英语* |
最大提示长度 |
224 个标记 |
视频长度 |
5 或 10 秒 |
帧率 |
16 帧/秒 |
数据说明
- 使用
diffusers
库测试时启用了库中包含的所有优化。此方案尚未在非 NVIDIA A100/H100 设备上测试。通常应适用于所有 NVIDIA Ampere 架构或更高版本的设备。禁用优化可能会使 VRAM 使用量增加三倍,但速度提高 3-4 倍。可以选择性地禁用某些优化,包括:
pipe.enable_sequential_cpu_offload()
pipe.vae.enable_slicing()
pipe.vae.enable_tiling()
- 在多 GPU 推理中,需要禁用
enable_sequential_cpu_offload()
优化。
- 使用 INT8 模型会降低推理速度,满足较低 VRAM GPU 的需求,同时保留最小的视频质量下降,代价是显著的速度降低。
- PytorchAO 和 Optimum-quanto 可用于量化文本编码器、Transformer 和 VAE 模块,减少 CogVideoX 的内存需求,使其可以在较小 VRAM 的 GPU 上运行。TorchAO 量化完全兼容
torch.compile
,显著提高推理速度。FP8
精度需要 NVIDIA H100 及以上设备,需要从源代码安装 torch
、torchao
、diffusers
和 accelerate
。建议使用 CUDA 12.4
。
- 推理速度测试也使用了上述 VRAM 优化,未优化时速度提高约 10%。只有
diffusers
版本的模型支持量化。
- 模型仅支持英文输入;其他语言应在提示制作时使用更大的模型翻译成英文。
注意
- 使用 SAT 进行推理和微调 SAT 版本的模型。详情请查看我们的 GitHub。
快速开始 🤗
此模型支持使用 Hugging Face diffusers 库进行部署。您可以按照以下步骤快速开始。
我们建议您访问我们的 GitHub 查看提示优化和转换,以获得更好的体验。
- 安装所需依赖