许可协议:openrail++
标签:
SD-XL 1.0基础模型卡

模型架构

SDXL采用专家集成的潜在扩散流程:
第一阶段,基础模型生成(含噪)潜在特征;
第二阶段,使用专精于最终去噪步骤的优化模型(参见:https://huggingface.co/stabilityai/stable-diffusion-xl-refiner-1.0/)进行细化处理。
注意:基础模型可独立使用。
替代方案可采用双阶段流程:
- 基础模型生成目标尺寸的潜在特征
- 使用专精高分辨率模型,对首阶段生成的潜在特征应用SDEdit技术(https://arxiv.org/abs/2108.01073,即"图生图"),保持相同提示词。该方案因需更多函数评估而略慢。
源代码库:https://github.com/Stability-AI/generative-models
模型描述
模型来源
研究推荐使用generative-models
代码库(https://github.com/Stability-AI/generative-models),该库实现了主流扩散框架(训练/推理)并持续新增蒸馏等功能。Clipdrop提供免费SDXL推理服务。
- 代码库: https://github.com/Stability-AI/generative-models
- 演示平台: https://clipdrop.co/stable-diffusion
性能评估
上图显示用户对SDXL(含/不含优化器)相较于SDXL 0.9及Stable Diffusion 1.5/2.1的偏好度。SDXL基础模型显著优于前代,结合优化模块后达到最佳综合表现。
🧨 Diffusers 使用指南
确保升级diffusers至>=0.19.0:
pip install diffusers --upgrade
同时安装依赖项:
pip install invisible_watermark transformers accelerate safetensors
基础模型调用示例:
from diffusers import DiffusionPipeline
import torch
pipe = DiffusionPipeline.from_pretrained("stabilityai/stable-diffusion-xl-base-1.0", torch_dtype=torch.float16, use_safetensors=True, variant="fp16")
pipe.to("cuda")
prompt = "宇航员骑绿色骏马"
images = pipe(prompt=prompt).images[0]
完整基础+优化流程示例:
启用torch>=2.0时,使用torch.compile
可提升20-30%推理速度:
pipe.unet = torch.compile(pipe.unet, mode="reduce-overhead", fullgraph=True)
GPU显存不足时可启用CPU卸载:
- pipe.to("cuda")
+ pipe.enable_model_cpu_offload()
更多用法参见SDXL文档
Optimum优化方案
Optimum提供兼容OpenVINO和ONNX Runtime的流程。
OpenVINO配置
pip install optimum[openvino]
使用示例:
from optimum.intel import OVStableDiffusionXLPipeline
ONNX配置
pip install optimum[onnxruntime]
使用示例:
from optimum.onnxruntime import ORTStableDiffusionXLPipeline
使用范围
适用场景
本模型仅限研究用途,包括:
- 艺术创作与设计应用
- 教育/创意工具开发
- 生成模型研究
- 有害内容生成的安全防护研究
- 生成模型偏差性分析
禁止场景
该模型不具备生成真实人物/事件的能力,相关应用超出模型设计范围。
局限性
技术限制
- 无法实现完美照片级真实感
- 无法生成可辨识文字
- 复杂组合场景(如"蓝色球体上的红色立方体")表现欠佳
- 人物面部生成可能失真
- 自编码部分存在信息损耗
社会偏见
图像生成能力可能放大社会固有偏见。