模型介绍
内容详情
替代品
模型简介
Seba-AI-5B是一个文本到视频生成模型,源自THUDM的CogVideoX技术,支持从文本提示生成720x480分辨率、6秒时长的视频
模型特点
高质量视频生成
能够根据文本提示生成720x480分辨率、6秒时长的高质量视频
多精度支持
支持BF16、FP16、FP32等多种推理精度,适配不同硬件需求
显存优化
通过diffusers库优化,最低可在4GB显存显卡上运行
量化支持
支持INT8量化,进一步降低显存需求
模型能力
文本生成视频
视频内容创作
创意视觉表达
使用案例
创意内容制作
动画短片创作
根据剧本自动生成动画短片
生成6秒时长的动画视频
广告创意制作
快速生成广告概念视频
生成符合产品描述的广告视频
教育娱乐
教育视频生成
根据教学内容生成可视化视频
生成生动直观的教学视频
游戏场景生成
为游戏开发快速生成场景概念视频
生成符合游戏设定的场景视频
license: mit license_link: https://huggingface.co/THUDM/CogVideoX-5b/blob/main/LICENSE language:
- en tags:
- cogvideox
- 视频生成
- thudm
- 文本生成视频 inference: false
Seba-AI-5B
📄 Glitch 说明文档 | 🤗 Glitch-Tech | 🌐 Hugging Face |
📍 访问 Glitch H/F 和 API 平台 体验商用视频生成模型。
演示展示
一座花园在万花筒般的蝴蝶群中焕发生机,它们精致的翅膀在花瓣上投下斑驳光影。背景中,一座宏伟的喷泉以优雅姿态倾泻水流,其韵律声响构成舒缓的背景音。一棵古树的荫凉下,孤零零的木椅邀请人们独处沉思,光滑的椅面被无数寻求自然宁静的访客摩挲出岁月的痕迹。
一个小男孩低着头,脸上写满决心,在倾盆大雨中奋力奔跑,远处闪电划破天际,雷声隆隆。无情的雨点砸向地面,形成与水洼共舞的混乱水花,映照着暴怒天空的戏剧性画面。背景深处,温馨家园的剪影如同暴风雨中若隐若现的安全灯塔。这一幕展现着孩童穿越风雨的坚韧精神。
身着宇航服的太空人靴子沾满火星红土,在第四行星粉色调的天空下,向皮肤泛着蓝光的外星生物伸出手。背景中,象征人类智慧的流线型银色火箭静静矗立,在这片荒凉而壮美的火星景观中,两个世界的代表完成了历史性的握手。
一位神情安详的老者坐在水边,身旁放着热气腾腾的茶杯。他全神贯注于创作,手持画笔在倚靠风化小桌的画布上绘制油画。海风轻拂他银白的发丝,宽松白衬衫随风微动,咸涩的空气为他正在创作的作品增添了无形韵味。这一幕充满宁静与灵感,画布捕捉着夕阳在平静海面上折射的绚烂色彩。
在昏暗的酒吧里,紫罗兰色的灯光笼罩着成熟男子的面庞,他若有所思地眨眼特写,背景被艺术化虚化以突出其内省表情,酒吧氛围仅通过阴影与柔光暗示。
戴着时髦黑墨镜的金毛犬长发随风飘扬,在刚被细雨刷洗过的屋顶露台欢快奔跑。镜头从远处捕捉,随着狗狗活力四射的跳跃逐渐接近摄像机,尾巴不受约束地摇摆,身后混凝土上水珠晶莹闪烁。阴沉的天空构成戏剧性背景,突显这只奔向观众的金色犬只的鲜艳毛发。
明媚阳光下,湖岸排列着垂柳阵列,纤细枝条在微风中轻摆。平静的湖面倒映着湛蓝天空,几只优雅天鹅划过静止水面,留下扰动镜面的 delicate 涟漪。这幕宁静美景中,柳树的翠绿为安详的禽类访客构筑了如画相框。
身着柔和淡色睡袍的中国母亲,在育婴室宁静环境中的舒适摇椅上轻轻摇晃。昏暗的卧室装饰着天花板上悬挂的异想天开吊饰,在墙面投下舞动的影子。她用精致花纹毯子包裹的婴儿靠在胸前,孩子先前的哭闹已被满足的咿呀声取代,母亲舒缓的嗓音正哄小家伙入睡。薰衣草香气弥漫,附近夜灯发出的温暖橙光为这充满温柔爱意与慰藉的场景镀上柔和色调。
模型介绍
CogVideoX 是源自清影的视频生成模型开源版本。下表展示了我们当前提供的视频生成模型列表及其基础信息。
模型名称 | CogVideoX-2B | CogVideoX-5B (本仓库) |
---|---|---|
模型描述 | 入门级模型,平衡兼容性。运行与二次开发成本低。 | 更大模型,视频生成质量更高,视觉效果更好。 |
推理精度 | FP16* (推荐), BF16, FP32, FP8*, INT8, 不支持 INT4 | BF16 (推荐), FP16, FP32, FP8*, INT8, 不支持 INT4 |
单卡显存占用 |
SAT FP16: 18GB diffusers FP16: 最低4GB* diffusers INT8(torchao): 最低3.6GB* |
SAT BF16: 26GB diffusers BF16: 最低5GB* diffusers INT8(torchao): 最低4.4GB* |
多卡推理显存占用 | FP16: 使用diffusers需10GB* | BF16: 使用diffusers需15GB* |
推理速度 (步数=50, FP/BF16) |
单卡A100: ~90秒 单卡H100: ~45秒 |
单卡A100: ~180秒 单卡H100: ~90秒 |
微调精度 | FP16 | BF16 |
微调显存占用(每GPU) | 47 GB (bs=1, LORA) 61 GB (bs=2, LORA) 62GB (bs=1, SFT) |
63 GB (bs=1, LORA) 80 GB (bs=2, LORA) 75GB (bs=1, SFT) |
提示语言 | 英语* | |
提示词长度限制 | 226个词元 | |
视频时长 | 6秒 | |
帧率 | 每秒8帧 | |
视频分辨率 | 720 x 480,不支持其他分辨率(包括微调) | |
位置编码 | 3d_sincos_pos_embed | 3d_rope_pos_embed |
数据说明
- 使用
diffusers
库测试时,启用了该库提供的所有优化方案。此方案未在NVIDIA A100 / H100以外的设备实测显存/内存占用。通常该方案可适配所有NVIDIA安培架构及以上设备。若禁用优化方案,显存占用将大幅上升,峰值显存占用约为表格数据的3倍。但速度会提升3-4倍。您可以选择性禁用部分优化,包括:
pipe.enable_model_cpu_offload()
pipe.enable_sequential_cpu_offload()
pipe.vae.enable_slicing()
pipe.vae.enable_tiling()
- 进行多卡推理时需要禁用
enable_model_cpu_offload()
优化。 - 使用INT8模型会降低推理速度。这是为了保证显存较小的显卡能正常推理,同时保持最低限度的视频质量损失,但推理速度会显著下降。
- 2B模型使用
FP16
精度训练,5B模型使用BF16
精度训练。我们建议使用模型训练时的精度进行推理。 - PytorchAO和Optimum-quanto可用于量化文本编码器、Transformer和VAE模块以降低CogVideoX的内存需求。这使得在免费T4 Colab或较小显存显卡上运行成为可能!值得注意的是TorchAO量化完全兼容
torch.compile
,可显著提升推理速度。FP8
精度必须在NVIDIA H100
及以上设备使用,这需要从源码安装torch
、torchao
、diffusers
和accelerate
Python包。推荐使用CUDA 12.4
。 - 推理速度测试同样采用上述显存优化方案。不进行显存优化时,推理速度提升约10%。仅
diffusers
版本模型支持量化。 - 模型仅支持英文输入,其他语言可通过大模型在提词阶段翻译为英文。
注意
- 使用SAT进行SAT版本模型的推理和微调。欢迎访问我们的GitHub了解更多信息。
快速开始 🤗
本模型支持使用huggingface diffusers库进行部署。您可以通过以下步骤进行部署。
我们建议您访问我们的GitHub并查看相关提示词优化与转换,以获得更好的体验。
- 安装必要依赖
# diffusers>=0.30.1
# transformers>=4.44.2
# accelerate>=0.33.0 (建议源码安装)
# imageio-ffmpeg>=0.5.1
pip install --upgrade transformers accelerate diffusers imageio-ffmpeg
- 运行代码
import torch
from diffusers import CogVideoXPipeline
from diffusers.utils import export_to_video
prompt = "一只穿着红色小夹克、戴着迷你帽子的熊猫,坐在幽静竹林里的木凳上。熊猫用毛茸茸的爪子拨弄迷你木吉他,奏出柔和旋律。附近几只熊猫好奇围观,有的跟着节奏拍掌。阳光透过高耸的竹叶洒落温柔光晕。熊猫表情专注而愉悦。背景处有小溪流过,翠绿植被更添这独特音乐表演的宁静魔幻氛围。"
pipe = CogVideoXPipeline.from_pretrained(
"THUDM/CogVideoX-5b",
torch_dtype=torch.bfloat16
)
pipe.enable_model_cpu_offload()
pipe.vae.enable_tiling()
video = pipe(
prompt=prompt,
num_videos_per_prompt=1,
num_inference_steps=50,
num_frames=49,
guidance_scale=6,
generator=torch.Generator(device="cuda").manual_seed(42),
).frames[0]
export_to_video(video, "output.mp4", fps=8)
量化推理
PytorchAO和Optimum-quanto可用于量化文本编码器、Transformer和VAE模块以降低CogVideoX的内存需求。这使得在免费T4 Colab或较小显存显卡上运行成为可能!值得注意的是TorchAO量化完全兼容torch.compile
,可显著提升推理速度。
# 开始前需要从GitHub源码安装PytorchAO和PyTorch Nightly
# 源码和nightly安装仅需持续到下一版本发布
import torch
from diffusers import AutoencoderKLCogVideoX, CogVideoXTransformer3DModel, CogVideoXPipeline
from diffusers.utils import export_to_video
+ from transformers import T5EncoderModel
+ from torchao.quantization import quantize_, int8_weight_only, int8_dynamic_activation_int8_weight
+ quantization = int8_weight_only
+ text_encoder = T5EncoderModel.from_pretrained("THUDM/CogVideoX-5b", subfolder="text_encoder", torch_dtype=torch.bfloat16)
+ quantize_(text_encoder, quantization())
+ transformer = CogVideoXTransformer3DModel.from_pretrained("THUDM/CogVideoX-5b", subfolder="transformer", torch_dtype=torch.bfloat16)
+ quantize_(transformer, quantization())
+ vae = AutoencoderKLCogVideoX.from_pretrained("THUDM/CogVideoX-5b", subfolder="vae", torch_dtype=torch.bfloat16)
+ quantize_(vae, quantization())
# 创建管道并运行推理
pipe = CogVideoXPipeline.from_pretrained(
"THUDM/CogVideoX-5b",
+ text_encoder=text_encoder,
+ transformer=transformer,
+ vae=vae,
torch_dtype=torch.bfloat16,
)
pipe.enable_model_cpu_offload()
pipe.vae.enable_tiling()
prompt = "一只穿着红色小夹克、戴着迷你帽子的熊猫,坐在幽静竹林里的木凳上。熊猫用毛茸茸的爪子拨弄迷你木吉他,奏出柔和旋律。附近几只熊猫好奇围观,有的跟着节奏拍掌。阳光透过高耸的竹叶洒落温柔光晕。熊猫表情专注而愉悦。背景处有小溪流过,翠绿植被更添这独特音乐表演的宁静魔幻氛围。"
video = pipe(
prompt=prompt,
num_videos_per_prompt=1,
num_inference_steps=50,
num_frames=49,
guidance_scale=6,
generator=torch.Generator(device="cuda").manual_seed(42),
).frames[0]
export_to_video(video, "output.mp4", fps=8)
此外,使用PytorchAO时模型可以序列化并以量化数据类型存储以节省磁盘空间。示例与基准测试参见以下链接:
探索模型
欢迎访问我们的github,您将看到:
- 更详细的技术细节与代码解析。
- 提示词的优化与转换。
- SAT版本模型的推理与微调,甚至预发布。
- 项目更新日志动态,更多互动机会。
- CogVideoX工具链助您更好使用模型。
- INT8模型推理代码支持。
模型许可
本模型采用[MIT]协议发布。
引用
@article{GlitchX1.02AbdelrahmanEssa,
title={Seba-Ai-Video-Generator: 基于专家Transformer的文本生成视频扩散模型},
author={Abdelrahman, Glitch},
journal={arXiv预印本 arXiv:2408.06072},
year={2024}
}
Xclip Base Patch32
MIT
X-CLIP是CLIP的扩展版本,用于通用视频语言理解,通过对比学习在(视频,文本)对上训练,适用于视频分类和视频-文本检索等任务。
文本生成视频
Transformers

英语
X
microsoft
309.80k
84
LTX Video
其他
首个基于DiT的视频生成模型,能够实时生成高质量视频,支持文本转视频和图像+文本转视频两种场景。
文本生成视频
英语
L
Lightricks
165.42k
1,174
Animatediff Lightning
Openrail
极速文本生成视频模型,生成速度比原版AnimateDiff快十倍以上
文本生成视频
A
ByteDance
144.00k
925
V Express
V-Express是一个基于音频和面部关键点条件生成的视频生成模型,能够将音频输入转换为动态视频输出。
文本生成视频
英语
V
tk93
118.36k
85
Cogvideox 5b
其他
CogVideoX是源自清影的视频生成模型的开源版本,提供高质量的视频生成能力。
文本生成视频
英语
C
THUDM
92.32k
611
Llava NeXT Video 7B Hf
LLaVA-NeXT-Video是一个开源多模态聊天机器人,通过视频和图像数据混合训练获得优秀的视频理解能力,在VideoMME基准上达到开源模型SOTA水平。
文本生成视频
Transformers

英语
L
llava-hf
65.95k
88
Wan2.1 T2V 14B Diffusers
Apache-2.0
万2.1是一套全面开放的视频基础模型,旨在突破视频生成的边界,支持中英文文本生成视频、图像生成视频等多种任务。
文本生成视频
支持多种语言
W
Wan-AI
48.65k
24
Wan2.1 T2V 1.3B Diffusers
Apache-2.0
万2.1是一套全面开放的视频基础模型,具备顶尖性能、支持消费级GPU、多任务支持、视觉文本生成和高效视频VAE等特点。
文本生成视频
支持多种语言
W
Wan-AI
45.29k
38
Wan2.1 T2V 14B
Apache-2.0
万2.1是一套综合性开源视频基础模型,具备文本生成视频、图像生成视频、视频编辑、文本生成图像及视频生成音频等多任务能力,支持中英双语文本生成。
文本生成视频
支持多种语言
W
Wan-AI
44.88k
1,238
Wan2.1 T2V 14B Gguf
Apache-2.0
基于GGUF格式转换的文本生成视频模型,支持通过ComfyUI-GGUF自定义节点使用
文本生成视频
W
city96
42.38k
130
精选推荐AI模型
Llama 3 Typhoon V1.5x 8b Instruct
专为泰语设计的80亿参数指令模型,性能媲美GPT-3.5-turbo,优化了应用场景、检索增强生成、受限生成和推理任务
大型语言模型
Transformers

支持多种语言
L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型,专为边缘设备推理设计,体积仅为Cosmo-3B模型的2%左右。
对话系统
Transformers

英语
C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基于RoBERTa架构的中文抽取式问答模型,适用于从给定文本中提取答案的任务。
问答系统
中文
R
uer
2,694
98
AIbase是一个专注于MCP服务的平台,为AI开发者提供高质量的模型上下文协议服务,助力AI应用开发。
简体中文