许可证:openrail++
标签:
Stable Diffusion v2-1-unclip 模型卡
本模型卡重点介绍与Stable Diffusion v2-1模型相关的模型,代码库可在此处获取这里。
这个stable-diffusion-2-1-unclip
是Stable Diffusion 2.1的微调版本,修改后除了接受文本提示外,还能接受(带噪声的)CLIP图像嵌入,可用于创建图像变体(示例)或与文本到图像的CLIP先验模型串联使用。通过noise_level参数可以指定添加到图像嵌入的噪声量(0表示无噪声,1000表示完全噪声)。
模型详情
-
开发者: Robin Rombach, Patrick Esser
-
模型类型: 基于扩散的文本到图像生成模型
-
语言: 英语
-
许可证: CreativeML Open RAIL++-M License
-
模型描述: 这是一个可以根据文本提示生成和修改图像的模型。它是一个潜在扩散模型,使用固定的预训练文本编码器(OpenCLIP-ViT/H)。
-
更多信息资源: GitHub仓库。
-
引用方式:
@InProceedings{Rombach_2022_CVPR,
author = {Rombach, Robin and Blattmann, Andreas and Lorenz, Dominik and Esser, Patrick and Ommer, Bj\"orn},
title = {High-Resolution Image Synthesis With Latent Diffusion Models},
booktitle = {Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)},
month = {June},
year = {2022},
pages = {10684-10695}
}
示例
使用🤗的Diffusers库以简单高效的方式运行Stable Diffusion UnCLIP 2-1-small。
pip install diffusers transformers accelerate scipy safetensors
运行管道(如果不更换调度器,将默认使用DDIM,本例中我们将其替换为DPMSolverMultistepScheduler):
from diffusers import DiffusionPipeline
from diffusers.utils import load_image
import torch
pipe = DiffusionPipeline.from_pretrained("stabilityai/stable-diffusion-2-1-unclip-small", torch_dtype=torch.float16)
pipe.to("cuda")
url = "https://huggingface.co/datasets/hf-internal-testing/diffusers-images/resolve/main/stable_unclip/tarsila_do_amaral.png"
image = load_image(url)
image = pipe(image).images[0]

用途
直接用途
该模型仅用于研究目的。可能的研究领域和任务包括:
- 安全部署可能生成有害内容的模型。
- 探索和理解生成模型的局限性和偏见。
- 艺术作品的生成及在设计和其他艺术过程中的应用。
- 教育或创意工具中的应用。
- 生成模型的研究。
以下用途不在范围内。
滥用、恶意使用及超范围使用
注:本节最初取自DALLE-MINI模型卡,适用于Stable Diffusion v1,同样适用于Stable Diffusion v2。
该模型不应被用于故意创建或传播为人们制造敌对或疏离环境的图像。这包括生成人们可预见会感到不安、痛苦或冒犯的图像;或传播历史或当前刻板印象的内容。
超范围使用
该模型未经过训练以生成关于人物或事件的真实或准确表示,因此使用该模型生成此类内容超出了该模型的能力范围。
滥用和恶意使用
使用该模型生成对个体残忍的内容是对该模型的滥用。包括但不限于:
- 生成贬低、非人化或以其他方式伤害人物或其环境、文化、宗教等的内容。
- 故意推广或传播歧视性内容或有害刻板印象。
- 未经同意冒充他人。
- 未经可能看到的人的同意生成性内容。
- 错误和虚假信息
- 极端暴力和血腥的描绘
- 违反使用条款分享受版权或许可保护的材料。
- 违反使用条款分享受版权或许可保护材料的修改版本。
局限性与偏见
局限性
- 模型无法实现完美的照片级真实感
- 模型无法渲染可读文本
- 模型在涉及组合性的更复杂任务上表现不佳,例如渲染“蓝色球体上的红色立方体”对应的图像
- 面部和人物可能无法正确生成。
- 模型主要使用英文标题训练,在其他语言中效果不佳。
- 模型的自动编码部分是有损的
- 模型是在大规模数据集LAION-5B的子集上训练的,该数据集包含成人、暴力和性内容。为部分缓解此问题,我们使用LAION的NSFW检测器对数据集进行了过滤(参见训练部分)。
偏见
尽管图像生成模型的能力令人印象深刻,但它们也可能强化或加剧社会偏见。
Stable Diffusion主要是在LAION-2B(en)的子集上训练的,
该数据集仅限于英文描述的图像。
使用其他语言的社区和文化的文本和图像可能未被充分代表。
这影响了模型的整体输出,因为白人和西方文化常常被设为默认。此外,
模型生成非英文提示内容的能力明显逊色于英文提示。
Stable Diffusion v2反映并加剧了偏见,以至于无论输入或其意图如何,都必须建议观众谨慎。
训练
训练数据
模型开发者使用以下数据集训练模型:
- LAION-5B及其子集(详情如下)。训练数据进一步使用LAION的NSFW检测器过滤,采用“p_unsafe”分数为0.1(保守)。更多详情,请参阅LAION-5B的NeurIPS 2022论文及关于该主题的审稿人讨论。
环境影响
Stable Diffusion v1 排放估算
基于这些信息,我们使用Lacoste等人(2019)提出的机器学习影响计算器估算以下CO2排放量。硬件、运行时间、云服务提供商和计算区域用于估算碳影响。
- 硬件类型: A100 PCIe 40GB
- 使用小时数: 200000
- 云服务提供商: AWS
- 计算区域: 美国东部
- 碳排放量(功耗×时间×基于电网位置的碳产生): 15000 千克 CO2 当量。
引用
@InProceedings{Rombach_2022_CVPR,
author = {Rombach, Robin and Blattmann, Andreas and Lorenz, Dominik and Esser, Patrick and Ommer, Bj\"orn},
title = {High-Resolution Image Synthesis With Latent Diffusion Models},
booktitle = {Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)},
month = {June},
year = {2022},
pages = {10684-10695}
}
本模型卡由Robin Rombach、Patrick Esser和David Ha编写,基于Stable Diffusion v1和DALL-E Mini模型卡。