🚀 stable-diffusion-xl-inpainting-1.0-GGUF
stable-diffusion-xl-inpainting-1.0-GGUF 是一个文本到图像的扩散模型,能够根据文本输入生成逼真图像,还具备通过掩码进行图像修复的额外能力。该模型由 Diffusers 团队开发,基于 stable-diffusion-xl-base-1.0 权重初始化。
🚀 快速开始
!!! 仅由 gpustack/llama-box v0.0.98+ 提供实验性支持 !!!
模型创建者:Diffusers
原始模型:stable-diffusion-xl-1.0-inpainting-0.1
GGUF 量化:基于由 llama-box 打补丁的 stable-diffusion.cpp ac54e。
量化方式 |
OpenAI CLIP ViT-L/14 量化 |
OpenCLIP ViT-G/14 量化 |
VAE 量化 |
FP16 |
FP16 |
FP16 |
FP16 |
Q8_0 |
FP16 |
FP16 |
FP16 |
Q4_1 |
FP16 |
FP16 |
FP16 |
Q4_0 |
FP16 |
FP16 |
FP16 |
✨ 主要特性
SD-XL Inpainting 0.1 是一个潜在的文本到图像扩散模型,能够根据任何文本输入生成逼真的图像,并具有使用掩码修复图片的额外能力。该模型使用 stable-diffusion-xl-base-1.0
权重进行初始化,在 1024x1024 分辨率下训练了 40k 步,并以 5% 的概率丢弃文本条件以改善无分类器引导采样。对于图像修复,UNet 有 5 个额外的输入通道(4 个用于编码掩码图像,1 个用于掩码本身),其权重在恢复非修复检查点后初始化为零。在训练过程中,会生成合成掩码,并以 25% 的概率对整个图像进行掩码处理。
💻 使用示例
基础用法
from diffusers import AutoPipelineForInpainting
from diffusers.utils import load_image
import torch
pipe = AutoPipelineForInpainting.from_pretrained("diffusers/stable-diffusion-xl-1.0-inpainting-0.1", torch_dtype=torch.float16, variant="fp16").to("cuda")
img_url = "https://raw.githubusercontent.com/CompVis/latent-diffusion/main/data/inpainting_examples/overture-creations-5sI6fQgYIuo.png"
mask_url = "https://raw.githubusercontent.com/CompVis/latent-diffusion/main/data/inpainting_examples/overture-creations-5sI6fQgYIuo_mask.png"
image = load_image(img_url).resize((1024, 1024))
mask_image = load_image(mask_url).resize((1024, 1024))
prompt = "a tiger sitting on a park bench"
generator = torch.Generator(device="cuda").manual_seed(0)
image = pipe(
prompt=prompt,
image=image,
mask_image=mask_image,
guidance_scale=8.0,
num_inference_steps=20,
strength=0.99,
generator=generator,
).images[0]
效果展示
输入图像 |
掩码图像 |
 |
 |
提示词 |
输出图像 |
a tiger sitting on a park bench |
 |
📚 详细文档
模型描述
用途
直接使用
该模型仅用于研究目的。可能的研究领域和任务包括:
- 艺术品生成,以及在设计和其他艺术过程中的应用。
- 在教育或创意工具中的应用。
- 生成模型的研究。
- 对有可能生成有害内容的模型进行安全部署。
- 探索和理解生成模型的局限性和偏差。
超出范围的使用
该模型并非用于真实或准确地表示人物或事件,因此使用该模型生成此类内容超出了该模型的能力范围。
局限性和偏差
局限性
- 模型无法实现完美的照片级真实感。
- 模型无法渲染清晰可读的文本。
- 模型在处理更复杂的组合性任务时存在困难,例如渲染与 “一个红色立方体放在蓝色球体上” 对应的图像。
- 面部和人物通常可能无法正确生成。
- 模型的自动编码部分存在信息损失。
- 当强度参数设置为 1(即从完全掩码的图像开始进行图像修复)时,图像质量会下降。模型会保留图像的非掩码内容,但图像看起来不够清晰。目前正在对此进行研究并开发下一版本。
偏差
虽然图像生成模型的能力令人印象深刻,但它们也可能强化或加剧社会偏差。
📄 许可证
本模型采用 CreativeML Open RAIL++-M License 许可证。