Stable Diffusion XL Inpainting开源图像修复模型

首页

Stable Diffusion Xl 1.0 Inpainting 0.1

由 diffusers 开发

基于Stable Diffusion XL的潜在文本到图像扩散模型，具备通过遮罩进行图像修复的功能

图像生成 #高分辨率图像修复 #文本引导修复 #1024x1024支持

下载量 673.14k

发布时间 : 9/1/2023

模型简介

该模型能够根据文本输入生成逼真图像，并支持通过遮罩对图像进行局部修复。基于stable-diffusion-xl-base-1.0权重初始化，在1024x1024分辨率下训练。

模型特点

高分辨率图像修复

支持1024x1024高分辨率图像的修复任务

文本引导修复

可根据文本提示指导图像修复内容

合成遮罩训练

训练过程中生成合成遮罩，25%情况下完全遮罩图像

模型能力

文本到图像生成

图像修复

局部图像编辑

使用案例

创意设计

艺术作品修复

修复老旧或损坏的艺术作品

保持原作品风格的同时修复损坏区域

创意图像编辑

根据文本提示修改图像局部内容

如示例中将长椅上的物体替换为老虎

教育研究

生成模型研究

研究图像修复技术的局限性与可能性

🚀 SD-XL 图像修复 0.1 模型卡片

SD-XL 图像修复 0.1 是一个潜在的文本到图像扩散模型，它能够根据任何文本输入生成逼真的图像，并且具备通过使用掩码对图片进行修复的额外能力。

图像修复示例

🚀 快速开始

💻 使用示例

基础用法

from diffusers import AutoPipelineForInpainting
from diffusers.utils import load_image
import torch

pipe = AutoPipelineForInpainting.from_pretrained("diffusers/stable-diffusion-xl-1.0-inpainting-0.1", torch_dtype=torch.float16, variant="fp16").to("cuda")

img_url = "https://raw.githubusercontent.com/CompVis/latent-diffusion/main/data/inpainting_examples/overture-creations-5sI6fQgYIuo.png"
mask_url = "https://raw.githubusercontent.com/CompVis/latent-diffusion/main/data/inpainting_examples/overture-creations-5sI6fQgYIuo_mask.png"

image = load_image(img_url).resize((1024, 1024))
mask_image = load_image(mask_url).resize((1024, 1024))

prompt = "a tiger sitting on a park bench"
generator = torch.Generator(device="cuda").manual_seed(0)

image = pipe(
  prompt=prompt,
  image=image,
  mask_image=mask_image,
  guidance_scale=8.0,
  num_inference_steps=20,  # steps between 15 and 30 work well for us
  strength=0.99,  # make sure to use `strength` below 1.0
  generator=generator,
).images[0]

工作原理：

输入图像	掩码图像

提示词	输出结果
a tiger sitting on a park bench

📚 详细文档

模型描述

属性	详情
开发者	The Diffusers 团队
模型类型	基于扩散的文本到图像生成模型
许可证	CreativeML Open RAIL++-M 许可证
模型说明	这是一个可用于根据文本提示生成和修改图像的模型。它是一个潜在扩散模型，使用两个固定的预训练文本编码器（OpenCLIP-ViT/G 和 CLIP-ViT/L）。

用途

直接用途

该模型仅用于研究目的。可能的研究领域和任务包括：

艺术品生成以及在设计和其他艺术过程中的应用。
教育或创意工具中的应用。
生成模型的研究。
对有潜在生成有害内容能力的模型进行安全部署。
探究和理解生成模型的局限性和偏差。

超出适用范围的用途

该模型并非用于对人物或事件进行事实性或真实的呈现，因此使用该模型生成此类内容超出了该模型的能力范围。

局限性和偏差

局限性

模型无法实现完美的逼真度。
模型无法渲染清晰可读的文本。
模型在处理涉及组合性的更复杂任务时存在困难，例如渲染与 “一个红色立方体放在蓝色球体上” 对应的图像。
一般来说，人脸和人物可能无法正确生成。
模型的自动编码部分存在信息损失。
当强度参数设置为 1（即从完全掩码的图像开始进行图像修复）时，图像质量会下降。模型会保留图像中未掩码的内容，但图像看起来不够清晰。我们正在对此进行研究并开发下一版本。