许可证:apache-2.0
支持语言:
- 中文
- 英文
基础模型:
- THUDM/glm-4-9b
任务类型:文生图
库名称:diffusers
CogView4-6B
🤗 空间 |
🌐 Github |
📜 CogView3 论文

推理要求与模型介绍
- 分辨率:宽高需在
512px
至2048px
之间,能被32
整除,且确保总像素不超过2^21
像素
- 精度:BF16 / FP32(不支持FP16,会导致溢出生成全黑图像)
使用BF16
精度和batchsize=4
测试时,显存占用如下表所示:
分辨率 |
关闭模型CPU卸载 |
开启模型CPU卸载 |
开启模型CPU卸载+文本编码器4bit量化 |
512*512 |
33GB |
20GB |
13G |
1280*720 |
35GB |
20GB |
13G |
1024*1024 |
35GB |
20GB |
13G |
1920*1280 |
39GB |
20GB |
14G |
快速开始
首先确保从源码安装diffusers
库:
pip install git+https://github.com/huggingface/diffusers.git
cd diffusers
pip install -e .
然后运行以下代码:
from diffusers import CogView4Pipeline
pipe = CogView4Pipeline.from_pretrained("THUDM/CogView4-6B", torch_dtype=torch.bfloat16)
pipe.enable_model_cpu_offload()
pipe.vae.enable_slicing()
pipe.vae.enable_tiling()
prompt = "一辆鲜艳樱桃红的跑车在灿烂阳光下傲然矗立,抛光外表光滑无瑕,映出镜面般的倒影。车身采用低矮的空气动力学设计,棱角分明的头灯如捕食者眼睛般凝视前方,黑色高光赛车轮毂与红色车身形成鲜明对比。格栅和排气管点缀着若隐若现的镀铬装饰,而深色车窗暗示着豪华私密的内饰。整个场景传递着速度与优雅,仿佛这辆跑车即将沿着海岸公路飞驰,背景是碧蓝海浪拍岸的景象。"
image = pipe(
prompt=prompt,
guidance_scale=3.5,
num_images_per_prompt=1,
num_inference_steps=50,
width=1024,
height=1024,
).images[0]
image.save("cogview4.png")
模型指标
我们在多个基准测试中获得如下分数:
DPG评测
模型 |
综合得分 |
全局理解 |
实体呈现 |
属性还原 |
关系表达 |
其他维度 |
SDXL |
74.65 |
83.27 |
82.43 |
80.91 |
86.76 |
80.41 |
PixArt-alpha |
71.11 |
74.97 |
79.32 |
78.60 |
82.57 |
76.96 |
SD3-Medium |
84.08 |
87.90 |
91.01 |
88.83 |
80.70 |
88.68 |
DALL-E 3 |
83.50 |
90.97 |
89.61 |
88.39 |
90.58 |
89.83 |
Flux.1-dev |
83.79 |
85.80 |
86.79 |
89.98 |
90.04 |
89.90 |
Janus-Pro-7B |
84.19 |
86.90 |
88.90 |
89.40 |
89.32 |
89.48 |
CogView4-6B |
85.13 |
83.85 |
90.35 |
91.17 |
91.14 |
87.29 |
生成评估
模型 |
综合 |
单物体 |
双物体 |
计数 |
颜色 |
位置 |
颜色属性 |
SDXL |
0.55 |
0.98 |
0.74 |
0.39 |
0.85 |
0.15 |
0.23 |
PixArt-alpha |
0.48 |
0.98 |
0.50 |
0.44 |
0.80 |
0.08 |
0.07 |
SD3-Medium |
0.74 |
0.99 |
0.94 |
0.72 |
0.89 |
0.33 |
0.60 |
DALL-E 3 |
0.67 |
0.96 |
0.87 |
0.47 |
0.83 |
0.43 |
0.45 |
Flux.1-dev |
0.66 |
0.98 |
0.79 |
0.73 |
0.77 |
0.22 |
0.45 |
Janus-Pro-7B |
0.80 |
0.99 |
0.89 |
0.59 |
0.90 |
0.79 |
0.66 |
CogView4-6B |
0.73 |
0.99 |
0.86 |
0.66 |
0.79 |
0.48 |
0.58 |
文本图像合成评测
模型 |
颜色 |
形状 |
纹理 |
二维空间 |
三维空间 |
数字 |
非空间Clip |
复杂三合一 |
SDXL |
0.5879 |
0.4687 |
0.5299 |
0.2133 |
0.3566 |
0.4988 |
0.3119 |
0.3237 |
PixArt-alpha |
0.6690 |
0.4927 |
0.6477 |
0.2064 |
0.3901 |
0.5058 |
0.3197 |
0.3433 |
SD3-Medium |
0.8132 |
0.5885 |
0.7334 |
0.3200 |
0.4084 |
0.6174 |
0.3140 |
0.3771 |
DALL-E 3 |
0.7785 |
0.6205 |
0.7036 |
0.2865 |
0.3744 |
0.5880 |
0.3003 |
0.3773 |
Flux.1-dev |
0.7572 |
0.5066 |
0.6300 |
0.2700 |
0.3992 |
0.6165 |
0.3065 |
0.3628 |
Janus-Pro-7B |
0.5145 |
0.3323 |
0.4069 |
0.1566 |
0.2753 |
0.4406 |
0.3137 |
0.3806 |
CogView4-6B |
0.7786 |
0.5880 |
0.6983 |
0.3075 |
0.3708 |
0.6626 |
0.3056 |
0.3869 |
中文文本准确率评估
模型 |
精确率 |
召回率 |
F1值 |
Pick@4 |
Kolors |
0.6094 |
0.1886 |
0.2880 |
0.1633 |
CogView4-6B |
0.6969 |
0.5532 |
0.6168 |
0.3265 |
引用
🌟 如果您觉得我们的工作有帮助,请考虑引用论文并留下宝贵星标
@article{zheng2024cogview3,
title={Cogview3: 通过接力扩散实现更精细快速的文生图},
author={郑文迪 and 滕佳妍 and 杨卓艺 and 王伟晗 and 陈继东 and 顾晓涛 and 董禹潇 and 丁铭 and 唐杰},
journal={arXiv预印本 arXiv:2403.05121},
year={2024}
}
许可证
本模型基于Apache 2.0许可证发布。