sd-controlnet-scribble开源图像生成模型 - 根据涂鸦草图精准生成图像

首页

Sd Controlnet Scribble

由 lllyasviel 开发

ControlNet是一种通过涂鸦图像条件控制扩散模型的神经网络结构，可精确生成符合草图轮廓的图像。

图像生成其他开源协议:Openrail #涂鸦控制生成 #边缘检测辅助 #图像条件控制

下载量 5,395

发布时间 : 2/24/2023

模型简介

基于Stable Diffusion v1-5的ControlNet涂鸦版本，允许用户通过手绘草图控制图像生成过程，实现草图到精细图像的转换。

模型特点

草图控制生成

通过手绘草图精确控制生成图像的构图和轮廓

小数据训练

仅需5万以下训练样本即可保持模型鲁棒性

端到端学习

支持从条件输入到生成结果的端到端训练

模型能力

草图转精细图像

构图控制

艺术创作辅助

设计原型生成

使用案例

艺术创作

概念草图渲染

将设计师的手绘草图转化为完整渲染图

生成符合原始构图的高质量图像

产品设计

包袋设计生成

根据轮廓草图生成不同材质/颜色的包袋设计

示例中展示了从简笔画到真实感包袋的转换效果

🚀 Controlnet - 草图版本

ControlNet 是一种神经网络结构，可通过添加额外条件来控制扩散模型。此检查点对应于以草图图像为条件的 ControlNet，可与 Stable Diffusion 结合使用。

✨ 主要特性

能够通过添加额外条件控制扩散模型，支持如边缘图、分割图、关键点等条件输入。
学习任务特定条件的方式端到端，即使训练数据集较小（< 50k），学习过程也很稳健。
训练速度与微调扩散模型相当，可在个人设备上进行训练，也能在强大计算集群上处理大量数据。

📚 详细文档

模型详情

属性	详情
开发者	Lvmin Zhang, Maneesh Agrawala
模型类型	基于扩散的文本到图像生成模型
语言	英语
许可证	The CreativeML OpenRAIL M license 是一种 Open RAIL M license，改编自 BigScience 和 the RAIL Initiative 在负责任的人工智能许可领域的联合工作。另见我们的许可证所基于的关于 BLOOM Open RAIL 许可证的文章。
更多信息资源	GitHub 仓库，论文
引用格式	@misc{zhang2023adding, title={Adding Conditional Control to Text-to-Image Diffusion Models}, author={Lvmin Zhang and Maneesh Agrawala}, year={2023}, eprint={2302.05543}, archivePrefix={arXiv}, primaryClass={cs.CV} }

简介

Controlnet 由 Lvmin Zhang 和 Maneesh Agrawala 在 Adding Conditional Control to Text-to-Image Diffusion Models 中提出。论文摘要如下：

我们提出了一种神经网络结构 ControlNet，用于控制预训练的大型扩散模型以支持额外的输入条件。ControlNet 以端到端的方式学习特定任务的条件，即使训练数据集较小（< 50k），学习过程也很稳健。此外，训练 ControlNet 的速度与微调扩散模型相当，并且该模型可以在个人设备上进行训练。或者，如果有强大的计算集群，该模型可以扩展到处理大量（数百万到数十亿）的数据。我们报告称，像 Stable Diffusion 这样的大型扩散模型可以通过 ControlNets 进行增强，以支持边缘图、分割图、关键点等条件输入。这可能会丰富控制大型扩散模型的方法，并进一步促进相关应用的发展。

发布的检查点

作者发布了 8 个不同的检查点，每个检查点都基于 Stable Diffusion v1 - 5 在不同类型的条件下进行训练：

模型名称	控制图像概述	控制图像示例	生成图像示例
[lllyasviel/sd - controlnet - canny](https://huggingface.co/lllyasviel/sd - controlnet - canny) 使用 Canny 边缘检测进行训练	黑色背景上带有白色边缘的单色图像。
[lllyasviel/sd - controlnet - depth](https://huggingface.co/lllyasviel/sd - controlnet - depth) 使用 Midas 深度估计进行训练	黑色代表深区域，白色代表浅区域的灰度图像。
[lllyasviel/sd - controlnet - hed](https://huggingface.co/lllyasviel/sd - controlnet - hed) 使用 HED 边缘检测（软边缘）进行训练	黑色背景上带有白色软边缘的单色图像。
[lllyasviel/sd - controlnet - mlsd](https://huggingface.co/lllyasviel/sd - controlnet - mlsd) 使用 M - LSD 线检测进行训练	黑色背景上仅由白色直线组成的单色图像。
[lllyasviel/sd - controlnet - normal](https://huggingface.co/lllyasviel/sd - controlnet - normal) 使用法线贴图进行训练	一张法线贴图图像。
[lllyasviel/sd - controlnet_openpose](https://huggingface.co/lllyasviel/sd - controlnet - openpose) 使用 OpenPose 骨骼图像进行训练	一张 [OpenPose 骨骼](https://github.com/CMU - Perceptual - Computing - Lab/openpose) 图像。
[lllyasviel/sd - controlnet_scribble](https://huggingface.co/lllyasviel/sd - controlnet - scribble) 使用人类草图进行训练	黑色背景上带有白色轮廓的手绘单色图像。
[lllyasviel/sd - controlnet_seg](https://huggingface.co/lllyasviel/sd - controlnet - seg) 使用语义分割进行训练	一张 ADE20K 的分割协议图像。

💻 使用示例

基础用法

建议将此检查点与 Stable Diffusion v1 - 5 一起使用，因为该检查点是基于此进行训练的。实验表明，该检查点也可以与其他扩散模型（如经过 Dreambooth 训练的 Stable Diffusion）一起使用。

注意：如果要处理图像以创建辅助条件，则需要安装以下外部依赖项：

安装 https://github.com/patrickvonplaten/controlnet_aux

$ pip install controlnet_aux

安装 diffusers 及相关包：

$ pip install diffusers transformers accelerate

运行代码：

from PIL import Image
from diffusers import StableDiffusionControlNetPipeline, ControlNetModel, UniPCMultistepScheduler
import torch
from controlnet_aux import HEDdetector
from diffusers.utils import load_image

hed = HEDdetector.from_pretrained('lllyasviel/ControlNet')

image = load_image("https://huggingface.co/lllyasviel/sd-controlnet-scribble/resolve/main/images/bag.png")

image = hed(image, scribble=True)

controlnet = ControlNetModel.from_pretrained(
    "lllyasviel/sd-controlnet-scribble", torch_dtype=torch.float16
)

pipe = StableDiffusionControlNetPipeline.from_pretrained(
    "runwayml/stable-diffusion-v1-5", controlnet=controlnet, safety_checker=None, torch_dtype=torch.float16
)

pipe.scheduler = UniPCMultistepScheduler.from_config(pipe.scheduler.config)

# 如果你没有安装 xformers，可以删除此代码
# 安装说明请参考 https://huggingface.co/docs/diffusers/v0.13.0/en/optimization/xformers#installing-xformers
pipe.enable_xformers_memory_efficient_attention()

pipe.enable_model_cpu_offload()

image = pipe("bag", image, num_inference_steps=20).images[0]

image.save('images/bag_scribble_out.png')