许可协议: openrail++
标签:
稳定扩散x2潜在空间放大模型卡
本模型卡重点介绍由Katherine Crowson与Stability AI合作开发的基于潜在扩散的放大模型。该模型在LAION-2B数据集的高分辨率子集上训练而成,是一种扩散模型,其操作空间与稳定扩散模型相同,通过解码可生成全分辨率图像。使用时,可将稳定扩散生成的潜在变量输入该放大模型,再通过标准VAE解码;或对任意图像编码至潜在空间后放大并解码。
注意:
此放大模型专为稳定扩散设计,可提升其潜在去噪图像嵌入的分辨率。由于所有中间状态可保留在GPU上,能实现极速的文本生成图像+放大流程(详见下方示例)。兼容所有稳定扩散检查点。
原始输出图像 |
2倍放大输出图像 |
 |
 |
模型详情
示例
使用ü§ó的Diffusers库在任何StableDiffusionUpscalePipeline
检查点上运行潜在放大器,将输出图像分辨率提升2倍。
pip install git+https://github.com/huggingface/diffusers.git
pip install transformers accelerate scipy safetensors
from diffusers import StableDiffusionLatentUpscalePipeline, StableDiffusionPipeline
import torch
pipeline = StableDiffusionPipeline.from_pretrained("CompVis/stable-diffusion-v1-4", torch_dtype=torch.float16)
pipeline.to("cuda")
upscaler = StableDiffusionLatentUpscalePipeline.from_pretrained("stabilityai/sd-x2-latent-upscaler", torch_dtype=torch.float16)
upscaler.to("cuda")
prompt = "高清宇航员照片,虚幻引擎,超现实主义"
generator = torch.manual_seed(33)
low_res_latents = pipeline(prompt, generator=generator, output_type="latent").images
upscaled_image = upscaler(
prompt=prompt,
image=low_res_latents,
num_inference_steps=20,
guidance_scale=0,
generator=generator,
).images[0]
upscaled_image.save("astronaut_1024.png")
with torch.no_grad():
image = pipeline.decode_latents(low_res_latents)
image = pipeline.numpy_to_pil(image)[0]
image.save("astronaut_512.png")
效果对比:
512分辨率宇航员

1024分辨率宇航员

注意事项:
- 强烈建议安装xformers以实现高效注意力机制(性能更佳)
- GPU内存不足时,在发送至CUDA后添加
pipe.enable_attention_slicing()
可降低显存占用(但会降低速度)
用途
直接用途
本模型仅限研究用途,可能的研究方向包括:
- 安全部署可能生成有害内容的模型
- 探究生成模型的局限性与偏差
- 艺术创作及设计应用
- 教育或创意工具开发
- 生成模型研究
以下为禁用场景。
滥用、恶意使用及超范围使用
注:本节改编自DALLE-MINI模型卡,原用于稳定扩散v1,同样适用于v2。
禁止使用本模型故意制造或传播令人不适的内容,包括但不限于:
- 生成令人不安/痛苦/冒犯性的图像
- 强化历史或现存刻板印象
- 未经许可模仿特定个体
- 非自愿性成人内容
- 虚假/误导性信息
- 极端暴力/血腥内容
- 违反版权条款的内容传播
局限性与偏差
局限性
- 无法实现完美照片级真实感
- 无法生成清晰文本
- 对组合性任务(如"蓝色球体上的红色立方体")表现欠佳
- 人脸/人物生成可能不准确
- 主要基于英语描述训练,其他语言效果较差
- 自编码部分存在信息损耗
- 训练数据来自LAION-5B子集(含成人/暴力内容,已通过NSFW过滤器部分过滤)
偏差
尽管图像生成能力出色,但可能强化社会偏见。稳定扩散v2主要在LAION-2B(en)子集上训练,导致:
- 非英语社区文化表现不足
- 西方文化被默认为标准
- 非英语提示词生成质量显著较差
提示:无论输入内容为何,使用者都需警惕模型可能加剧的偏见问题。