许可证: openrail++
标签:
SD-XL 1.0优化器模型卡片

模型

SDXL采用了一种基于专家集合的潜在扩散流程:
首先,基础模型(参见:https://huggingface.co/stabilityai/stable-diffusion-xl-base-1.0)生成带噪潜在特征,随后由专门负责最终去噪步骤的优化模型进行细化处理。需注意基础模型可独立使用。
另一种双阶段流程如下:
第一阶段使用基础模型生成目标尺寸的潜在特征;第二阶段采用专为高分辨率设计的模型,并对初阶段生成的潜在特征应用SDEdit技术(https://arxiv.org/abs/2108.01073,亦称"img2img"),保持提示词不变。此方法因需更多函数评估而略慢。
源代码详见:https://github.com/Stability-AI/generative-models
模型描述
模型来源
研究推荐使用generative-models
GitHub仓库(https://github.com/Stability-AI/generative-models),该库实现了主流扩散框架(训练与推理),并将持续添加蒸馏等新功能。Clipdrop提供免费SDXL推理服务。
- 代码库: https://github.com/Stability-AI/generative-models
- 演示: https://clipdrop.co/stable-diffusion
评估

上图显示用户对SDXL(含/不含优化)相较于SDXL 0.9及Stable Diffusion 1.5/2.1的偏好度。SDXL基础模型显著优于前代,结合优化模块后达到最佳综合表现。
🧨 Diffusers使用指南
确保升级diffusers至≥0.18.0:
pip install diffusers --upgrade
同时安装transformers
、safetensors
、accelerate
及隐形水印库:
pip install invisible_watermark transformers accelerate safetensors
随后可通过优化器提升图像质量:
import torch
from diffusers import StableDiffusionXLImg2ImgPipeline
from diffusers.utils import load_image
pipe = StableDiffusionXLImg2ImgPipeline.from_pretrained(
"stabilityai/stable-diffusion-xl-refiner-1.0", torch_dtype=torch.float16, variant="fp16", use_safetensors=True
)
pipe = pipe.to("cuda")
url = "https://huggingface.co/datasets/patrickvonplaten/images/resolve/main/aa_xl/000000009.png"
init_image = load_image(url).convert("RGB")
prompt = "火星上宇航员骑马的照片"
image = pipe(prompt, image=init_image).images
使用torch ≥ 2.0
时,可通过编译unet提升20-30%推理速度:
pipe.unet = torch.compile(pipe.unet, mode="reduce-overhead", fullgraph=True)
若受GPU显存限制,可启用CPU卸载替代.to("cuda")
:
- pipe.to("cuda")
+ pipe.enable_model_cpu_offload()
进阶用法详见官方文档。
用途
直接用途
本模型仅限研究用途,适用领域包括:
- 艺术作品生成及设计创作
- 教育或创意工具开发
- 生成模型研究
- 有害内容生成模型的安全部署
- 生成模型局限性与偏见的探索
以下为禁止用途说明。
禁止用途
该模型未针对人物或事件的真实再现进行训练,因此生成此类内容超出模型能力范围。
局限性与偏差
局限性
- 无法实现完美照片级真实感
- 无法生成可辨识文字
- 处理组合性任务(如"蓝色球体上的红色立方体")存在困难
- 人脸及人物生成可能不准确
- 模型自编码部分存在信息损失
偏差
尽管图像生成能力出色,模型可能强化或放大社会偏见。