license: other
license_link: https://huggingface.co/THUDM/CogVideoX-5b/blob/main/LICENSE
language:
- en
tags:
- cogvideox
- 视频生成
- thudm
- 文本生成视频
inference: false
CogVideoX-5B
📄 中文阅读 |
🤗 Huggingface Space |
🌐 Github |
📜 arxiv
演示展示
带字幕的视频画廊
花园苏醒,万花筒般的蝴蝶在花丛间翩翩起舞,它们精致的翅膀在花瓣上投下斑驳光影。背景中,宏伟的喷泉以优雅姿态倾泻水幕,潺潺水声构成舒缓的背景音。一棵古树的荫凉下,孤零零的木椅静候着沉思者,光滑的椅面记录着无数访客在此寻求自然怀抱中片刻宁静的痕迹。
暴雨如注中,小男孩低垂着头,脸上刻着坚毅,在远处闪电雷鸣的背景下奋力奔跑。密集的雨点砸向地面,形成与暴怒天空相呼应的水花之舞。远处,温馨房屋的剪影若隐若现,成为恶劣天气中安全与温暖的微弱灯塔。这一幕展现着孩童穿越风雨的不屈精神。
身着宇航服的探索者靴子沾满火星红土,在第四行星粉色调的天空下,向皮肤泛着幽蓝光芒的外星生物伸出手。背景中,象征人类智慧的银色火箭巍然矗立,引擎熄火状态下,两个世界的代表在这荒凉而壮美的火星景观中完成历史性握手。
神情安详的老者临水而坐,手边茶杯热气袅袅。他全神贯注于画布上的油画创作,海风拂过银发,宽松白衬衫微微鼓动。咸涩的空气为正在进行的杰作增添无形韵味。这一幕充盈着宁静与灵感,画布捕捉着夕阳在平静海面上折射的绚烂色彩。
幽暗酒吧里,紫罗兰色灯光笼罩着成熟男子的面庞,他若有所思地眨眼特写,背景虚化成朦胧的光影,仅以阴影与柔光暗示环境氛围。
戴着酷炫墨镜的金毛犬长发随风飘扬,在刚经历细雨洗礼的屋顶露台欢快奔跑。镜头由远及近,狗狗活力四射的跳跃逐渐放大,尾巴不受约束地摇摆,身后混凝土上水珠晶莹闪烁。阴郁天空构成戏剧性背景,突显犬只渐近时金色皮毛的夺目光彩。
明媚晴日下,湖畔垂柳成行,纤细枝条在微风中轻曳。静谧湖面倒映湛蓝天空,几只优雅天鹅划过平静水面,留下扰动镜面的细腻涟漪。垂柳青翠为这幅宁静美景构筑画框,安详的禽鸟访客更添意境。
身着淡雅睡袍的中国母亲在育婴室宁静环境中轻摇躺椅。朦胧灯光里,天花板上悬挂的旋转挂饰在墙面投下舞动的影子。襁褓中的婴儿贴着母亲胸膛,先前的啼哭已化作满足的咿呀声,母亲温柔的哼唱正将小家伙送入梦乡。薰衣草香气弥漫,夜灯橙黄光晕为这充满爱与安适的温情时刻镀上柔光。
模型介绍
CogVideoX是源自清影的视频生成模型开源版本。下表展示了我们当前提供的视频生成模型列表及其基础信息。
模型名称 |
CogVideoX-2B |
CogVideoX-5B (本仓库) |
模型描述 |
入门级模型,平衡兼容性。运行与二次开发成本低。 |
更大模型,视频生成质量更高,视觉效果更好。 |
推理精度 |
FP16* (推荐), BF16, FP32, FP8*, INT8, 不支持INT4 |
BF16 (推荐), FP16, FP32, FP8*, INT8, 不支持INT4 |
单卡显存占用 |
FP16: 使用SAT需18GB / 使用diffusers需12.5GB* INT8: 使用diffusers需7.8GB* |
BF16: 使用SAT需26GB / 使用diffusers需20.7GB* INT8: 使用diffusers需11.4GB* |
多卡推理显存占用 |
FP16: 使用diffusers需10GB* |
BF16: 使用diffusers需15GB* |
推理速度 (步数=50, FP/BF16) |
单A100: ~90秒 单H100: ~45秒 |
单A100: ~180秒 单H100: ~90秒 |
微调精度 |
FP16 |
BF16 |
微调显存占用(每GPU) |
47 GB (bs=1, LORA) 61 GB (bs=2, LORA) 62GB (bs=1, SFT) |
63 GB (bs=1, LORA) 80 GB (bs=2, LORA) 75GB (bs=1, SFT) |
提示词语言 |
英文* |
提示词长度限制 |
226个词元 |
视频时长 |
6秒 |
帧率 |
每秒8帧 |
视频分辨率 |
720 x 480,不支持其他分辨率(包括微调) |
位置编码 |
3d_sincos_pos_embed |
3d_rope_pos_embed |
数据说明
- 使用diffusers库测试时启用了
enable_model_cpu_offload()
选项和pipe.vae.enable_tiling()
优化。此方案未在NVIDIA A100/H100以外设备实测显存/内存占用。通常该方案可适配NVIDIA安培架构及以上所有设备。若关闭优化,显存占用将大幅上升,峰值显存约为表中数值的3倍。
- 进行多卡推理时需要关闭
enable_model_cpu_offload()
优化。
- 使用INT8模型会导致推理速度下降。这是为适配低显存显卡,使推理能正常运行且视频质量损失最小的方案,但推理速度会显著降低。
- 2B模型使用
FP16
精度训练,5B模型使用BF16
精度训练。推荐使用模型训练时的精度进行推理。
FP8
精度必须在NVIDIA H100
及以上设备使用,需要源码安装torch