许可协议:openrail++
基础模型:stabilityai/stable-diffusion-xl-base-1.0
标签:
- stable-diffusion-xl
- stable-diffusion-xl-diffusers
- 文本生成图像
- diffusers
- 图像修复
推理:不支持
stable-diffusion-xl-inpainting-1.0-GGUF
!!! 实验性功能,仅限 gpustack/llama-box v0.0.98+ 支持 !!!
模型创建者:Diffusers
原始模型:stable-diffusion-xl-1.0-inpainting-0.1
GGUF量化:基于stable-diffusion.cpp ac54e,由llama-box补丁修改。
量化类型 |
OpenAI CLIP ViT-L/14 量化 |
OpenCLIP ViT-G/14 量化 |
VAE 量化 |
FP16 |
FP16 |
FP16 |
FP16 |
Q8_0 |
FP16 |
FP16 |
FP16 |
Q4_1 |
FP16 |
FP16 |
FP16 |
Q4_0 |
FP16 |
FP16 |
FP16 |
SD-XL 图像修复 0.1 模型卡

SD-XL 图像修复 0.1 是一个潜在的文本到图像扩散模型,能够根据任何文本输入生成逼真的图像,并具备通过使用掩码修复图片的额外功能。
SD-XL 图像修复 0.1 是基于 stable-diffusion-xl-base-1.0
权重初始化的。该模型在 1024x1024 分辨率下训练了 40k 步,并采用了 5% 的文本条件丢弃率以改进无分类器引导采样。对于图像修复,UNet 增加了 5 个输入通道(4 个用于编码的掩码图像,1 个用于掩码本身),这些权重在恢复非修复检查点后初始化为零。在训练过程中,我们生成合成掩码,并在 25% 的情况下掩码所有内容。
使用方法
from diffusers import AutoPipelineForInpainting
from diffusers.utils import load_image
import torch
pipe = AutoPipelineForInpainting.from_pretrained("diffusers/stable-diffusion-xl-1.0-inpainting-0.1", torch_dtype=torch.float16, variant="fp16").to("cuda")
img_url = "https://raw.githubusercontent.com/CompVis/latent-diffusion/main/data/inpainting_examples/overture-creations-5sI6fQgYIuo.png"
mask_url = "https://raw.githubusercontent.com/CompVis/latent-diffusion/main/data/inpainting_examples/overture-creations-5sI6fQgYIuo_mask.png"
image = load_image(img_url).resize((1024, 1024))
mask_image = load_image(mask_url).resize((1024, 1024))
prompt = "一只老虎坐在公园长椅上"
generator = torch.Generator(device="cuda").manual_seed(0)
image = pipe(
prompt=prompt,
image=image,
mask_image=mask_image,
guidance_scale=8.0,
num_inference_steps=20,
strength=0.99,
generator=generator,
).images[0]
工作原理:
原图 |
掩码图 |
 |
 |
提示词 |
输出结果 |
一只老虎坐在公园长椅上 |
 |
模型描述
用途
直接使用
该模型仅供研究用途。可能的研究领域和任务包括:
- 艺术创作及在设计等艺术过程中的应用
- 教育或创意工具中的应用
- 生成模型研究
- 安全部署可能生成有害内容的模型
- 探索和理解生成模型的局限性与偏见
以下用途不在本模型范围内。
非适用范围
该模型未经过训练以生成人物或事件的真实表现,因此使用该模型生成此类内容超出了本模型的能力范围。
局限性与偏见
局限性
- 模型无法实现完美的照片级真实感
- 模型无法渲染可读文本
- 模型在处理涉及组合性的复杂任务时表现不佳,例如渲染"蓝色球体上的红色立方体"对应的图像
- 面部和人物可能无法正确生成
- 模型的自动编码部分存在信息损失
- 当强度参数设置为1(即从完全掩码的图像开始修复)时,图像质量会下降。模型保留了图像的非掩码内容,但图像看起来不够清晰。我们正在研究此问题并开发下一版本。
偏见
虽然图像生成模型的能力令人印象深刻,但它们也可能强化或加剧社会偏见。