license: openrail++
base_model: stabilityai/stable-diffusion-xl-base-1.0
tags:
- stable-diffusion-xl
- stable-diffusion-xl-diffusers
- text-to-image
- diffusers
- inpainting
inference: false
SD-XL 图像修复 0.1 模型卡片

SD-XL 图像修复 0.1 是一个潜在文本到图像扩散模型,能够根据任何文本输入生成逼真的图像,并具备通过遮罩进行图像修复的额外功能。
SD-XL 图像修复 0.1 基于 stable-diffusion-xl-base-1.0
的权重初始化。该模型在 1024x1024 分辨率下训练了 4 万步,并采用了 5% 的文本条件丢弃率以改进无分类器引导采样。对于图像修复任务,UNet 增加了 5 个输入通道(4 个用于编码的遮罩图像,1 个用于遮罩本身),这些通道的权重在恢复非修复检查点后进行了零初始化。训练过程中,我们会生成合成遮罩,并在 25% 的情况下完全遮罩图像。
使用方法
from diffusers import AutoPipelineForInpainting
from diffusers.utils import load_image
import torch
pipe = AutoPipelineForInpainting.from_pretrained("diffusers/stable-diffusion-xl-1.0-inpainting-0.1", torch_dtype=torch.float16, variant="fp16").to("cuda")
img_url = "https://raw.githubusercontent.com/CompVis/latent-diffusion/main/data/inpainting_examples/overture-creations-5sI6fQgYIuo.png"
mask_url = "https://raw.githubusercontent.com/CompVis/latent-diffusion/main/data/inpainting_examples/overture-creations-5sI6fQgYIuo_mask.png"
image = load_image(img_url).resize((1024, 1024))
mask_image = load_image(mask_url).resize((1024, 1024))
prompt = "一只老虎坐在公园长椅上"
generator = torch.Generator(device="cuda").manual_seed(0)
image = pipe(
prompt=prompt,
image=image,
mask_image=mask_image,
guidance_scale=8.0,
num_inference_steps=20,
strength=0.99,
generator=generator,
).images[0]
工作原理:
原图 |
遮罩图 |
 |
 |
提示词 |
输出结果 |
一只老虎坐在公园长椅上 |
 |
模型描述
用途
直接用途
该模型仅供研究使用,可能的研究领域和任务包括:
- 艺术作品生成及在设计等创作过程中的应用
- 教育或创意工具中的应用
- 生成模型研究
- 可能产生有害内容的模型安全部署
- 探索和理解生成模型的局限性与偏见
以下为不适用场景说明。
不适用场景
该模型并非用于生成人物或事件的真实准确表征,因此用模型生成此类内容超出了该模型的能力范围。
局限性与偏见
局限性
- 模型无法实现完美的照片级真实感
- 模型无法生成可辨识的文字
- 模型在处理组合性任务时存在困难,例如渲染"蓝色球体上的红色立方体"这样的图像
- 面部和人物可能无法正确生成
- 模型的自动编码部分是有损的
- 当强度参数设为1(即从完全遮罩的图像开始修复)时,图像质量会下降。模型会保留图像的非遮罩内容,但图像清晰度会降低。我们正在研究这个问题并开发下一版本。
偏见
虽然图像生成模型的能力令人印象深刻,但它们也可能强化或加剧社会偏见。