许可协议: openrail++
标签:
stable-diffusion-xl-refiner-1.0-GGUF
!!! 实验性支持仅限 gpustack/llama-box v0.0.75+ !!!
模型创建者: Stability AI
原始模型: stable-diffusion-xl-refiner-1.0
GGUF量化: 基于stable-diffusion.cpp ac54e 并由llama-box补丁。
VAE来源: madebyollin/sdxl-vae-fp16-fix.
量化方式 |
OpenCLIP ViT-G/14 量化 |
VAE 量化 |
FP16 |
FP16 |
FP16 |
Q8_0 |
FP16 |
FP16 |
Q4_1 |
FP16 |
FP16 |
Q4_0 |
FP16 |
FP16 |
SD-XL 1.0-refiner 模型卡

模型

SDXL 采用专家集合流程进行潜在扩散:
首先,基础模型(此处可用:https://huggingface.co/stabilityai/stable-diffusion-xl-base-1.0)用于生成(含噪)潜在表示,
随后由专注于最终去噪步骤的精炼模型进一步处理。
注意,基础模型可独立使用。
或者,可采用两阶段流程:
首先,基础模型生成所需输出尺寸的潜在表示。
第二步,使用专门的高分辨率模型,并对第一阶段生成的潜在表示应用SDEdit技术(https://arxiv.org/abs/2108.01073,亦称"img2img"),
使用相同提示。此技术略慢于第一种,因需更多函数评估。
源代码位于 https://github.com/Stability-AI/generative-models。
模型描述
模型来源
研究推荐使用generative-models
Github仓库(https://github.com/Stability-AI/generative-models),实现了最流行的扩散框架(训练和推理),并将随时间添加蒸馏等新功能。
Clipdrop提供免费SDXL推理。
- 仓库: https://github.com/Stability-AI/generative-models
- 演示: https://clipdrop.co/stable-diffusion
评估
上图评估了用户对SDXL(带与不带精炼)相较于SDXL 0.9和Stable Diffusion 1.5及2.1的偏好。
SDXL基础模型表现显著优于先前版本,结合精炼模块的模型达到最佳整体性能。
🧨 Diffusers
确保升级diffusers至>= 0.18.0:
pip install diffusers --upgrade
同时安装transformers
、safetensors
、accelerate
及隐形水印:
pip install invisible_watermark transformers accelerate safetensors
随后可用精炼器优化图像。
import torch
from diffusers import StableDiffusionXLImg2ImgPipeline
from diffusers.utils import load_image
pipe = StableDiffusionXLImg2ImgPipeline.from_pretrained(
"stabilityai/stable-diffusion-xl-refiner-1.0", torch_dtype=torch.float16, variant="fp16", use_safetensors=True
)
pipe = pipe.to("cuda")
url = "https://huggingface.co/datasets/patrickvonplaten/images/resolve/main/aa_xl/000000009.png"
init_image = load_image(url).convert("RGB")
prompt = "火星上宇航员骑马的照片"
image = pipe(prompt, image=init_image).images
使用torch >= 2.0
时,可通过torch.compile将推理速度提升20-30%。在运行流程前简单包装unet:
pipe.unet = torch.compile(pipe.unet, mode="reduce-overhead", fullgraph=True)
若受GPU VRAM限制,可启用cpu卸载,调用pipe.enable_model_cpu_offload
替代.to("cuda")
:
- pipe.to("cuda")
+ pipe.enable_model_cpu_offload()
高级用例请参阅文档。
用途
直接使用
模型仅供研究用途。可能的研究领域和任务包括:
- 艺术品生成及设计和艺术过程中的应用。
- 教育或创意工具中的应用。
- 生成模型研究。
- 可能生成有害内容模型的安全部署。
- 探索和理解生成模型的局限性和偏见。
以下为排除用途。
超出范围用途
模型未训练为人物或事件的真实表述,因此用模型生成此类内容超出其能力范围。
局限性与偏见
局限性
- 模型无法实现完美照片级真实感
- 模型无法渲染可读文本
- 模型在处理涉及组合性的复杂任务时存在困难,如渲染"蓝色球体上的红色立方体"对应图像
- 面部和人物可能生成不当
- 模型的自动编码部分存在信息损失
偏见
尽管图像生成模型能力惊人,也可能强化或加剧社会偏见。