sd-controlnet-hed开源模型 - 控制Stable Diffusion，精准生成图像边缘特征！

首页

Sd Controlnet Hed

由 lllyasviel 开发

基于HED边界条件训练的ControlNet模型，用于控制Stable Diffusion生成图像的边缘特征

图像生成其他开源协议:Openrail #HED软边缘控制 #图像到图像生成 #艺术创作辅助

下载量 552

发布时间 : 2/24/2023

模型简介

ControlNet是一种通过添加额外条件（如HED边界图）来控制扩散模型生成的神经网络结构，可与Stable Diffusion结合使用实现精确的图像生成控制

模型特点

HED边缘控制

使用HED（Holistically-Nested Edge Detection）算法提取的软边缘特征作为控制条件

小样本适应

即使在小训练集（<5万样本）下仍能保持鲁棒性能

高效训练

训练速度与微调扩散模型相当，支持个人设备训练

兼容性强

可与Stable Diffusion v1-5及衍生模型（如dreambooth微调版）配合使用

模型能力

图像边缘检测

条件图像生成

艺术创作辅助

图像风格转换

使用案例

数字艺术创作

素描转油画

将手绘素描转换为指定风格的油画作品

保持原始构图的同时实现风格转换

概念设计

基于简单线稿生成详细概念图

快速迭代设计方案

图像处理

图像增强

通过边缘引导增强低质量图像的细节

改善图像清晰度和结构完整性

🚀 Controlnet - HED边界版本

ControlNet是一种神经网络结构，可通过添加额外条件来控制扩散模型。此检查点对应的是基于HED边界条件的ControlNet，可与Stable Diffusion结合使用。

✨ 主要特性

可对预训练的大型扩散模型进行条件控制，支持额外的输入条件。
以端到端的方式学习特定任务的条件，即使训练数据集较小（< 50k），学习过程也很稳健。
训练速度与微调扩散模型相当，可在个人设备上进行训练；若有强大的计算集群，也能处理大量（数百万到数十亿）数据。
可增强像Stable Diffusion这样的大型扩散模型，使其支持边缘图、分割图、关键点等条件输入。

📦 安装指南

安装依赖库

安装https://github.com/patrickvonplaten/controlnet_aux

$ pip install controlnet_aux

安装diffusers及相关包：

$ pip install diffusers transformers accelerate

💻 使用示例

基础用法

from PIL import Image
from diffusers import StableDiffusionControlNetPipeline, ControlNetModel, UniPCMultistepScheduler
import torch
from controlnet_aux import HEDdetector
from diffusers.utils import load_image

hed = HEDdetector.from_pretrained('lllyasviel/ControlNet')

image = load_image("https://huggingface.co/lllyasviel/sd-controlnet-hed/resolve/main/images/man.png")

image = hed(image)

controlnet = ControlNetModel.from_pretrained(
    "lllyasviel/sd-controlnet-hed", torch_dtype=torch.float16
)

pipe = StableDiffusionControlNetPipeline.from_pretrained(
    "runwayml/stable-diffusion-v1-5", controlnet=controlnet, safety_checker=None, torch_dtype=torch.float16
)

pipe.scheduler = UniPCMultistepScheduler.from_config(pipe.scheduler.config)

# Remove if you do not have xformers installed
# see https://huggingface.co/docs/diffusers/v0.13.0/en/optimization/xformers#installing-xformers
# for installation instructions
pipe.enable_xformers_memory_efficient_attention()

pipe.enable_model_cpu_offload()

image = pipe("oil painting of handsome old man, masterpiece", image, num_inference_steps=20).images[0]

image.save('images/man_hed_out.png')

高级用法

暂未提供高级用法的相关内容。

man man_hed man_hed_out

📚 详细文档

模型详情

属性	详情
开发者	Lvmin Zhang, Maneesh Agrawala
模型类型	基于扩散的文本到图像生成模型
语言	英文
许可证	The CreativeML OpenRAIL M license 是一种 Open RAIL M license，改编自 BigScience 和 the RAIL Initiative 在负责任的AI许可领域的联合工作。另见关于BLOOM Open RAIL许可的文章，本许可证基于此。
更多信息资源	GitHub仓库，论文
引用格式	@misc{zhang2023adding, title={Adding Conditional Control to Text-to-Image Diffusion Models}, author={Lvmin Zhang and Maneesh Agrawala}, year={2023}, eprint={2302.05543}, archivePrefix={arXiv}, primaryClass={cs.CV} }

简介

Controlnet由Lvmin Zhang和Maneesh Agrawala在 Adding Conditional Control to Text-to-Image Diffusion Models 中提出。

论文摘要如下：

我们提出了一种神经网络结构ControlNet，用于控制预训练的大型扩散模型，以支持额外的输入条件。ControlNet以端到端的方式学习特定任务的条件，即使训练数据集较小（< 50k），学习过程也很稳健。此外，训练ControlNet的速度与微调扩散模型相当，并且可以在个人设备上进行训练。或者，如果有强大的计算集群，该模型可以处理大量（数百万到数十亿）的数据。我们发现，像Stable Diffusion这样的大型扩散模型可以通过ControlNets进行增强，以支持边缘图、分割图、关键点等条件输入。这可能会丰富控制大型扩散模型的方法，并进一步促进相关应用的发展。

已发布的检查点

作者发布了8个不同的检查点，每个检查点都基于 Stable Diffusion v1 - 5 在不同类型的条件下进行训练：

模型名称	控制图像概述	控制图像示例	生成图像示例
lllyasviel/sd - controlnet - canny 使用Canny边缘检测进行训练	黑色背景上带有白色边缘的单色图像。
lllyasviel/sd - controlnet - depth 使用Midas深度估计进行训练	黑色代表深区域，白色代表浅区域的灰度图像。
lllyasviel/sd - controlnet - hed 使用HED边缘检测（软边缘）进行训练	黑色背景上带有白色软边缘的单色图像。
lllyasviel/sd - controlnet - mlsd 使用M - LSD线检测进行训练	黑色背景上仅由白色直线组成的单色图像。
lllyasviel/sd - controlnet - normal 使用法线贴图进行训练	一张法线贴图图像。
lllyasviel/sd - controlnet_openpose 使用OpenPose骨骼图像进行训练	一张 OpenPose骨骼图像。
lllyasviel/sd - controlnet_scribble 使用人类涂鸦进行训练	黑色背景上带有白色轮廓的手绘单色图像。
lllyasviel/sd - controlnet_seg 使用语义分割进行训练	一张 ADE20K 的分割协议图像。

训练

HED边缘模型在300万个边缘图像 - 标题对上进行训练。该模型使用Nvidia A100 80G，以Stable Diffusion 1.5为基础模型，训练了600个GPU小时。

博客文章

如需更多信息，请查看 ControlNet官方博客文章。

🔧 技术细节

HED边界版本的ControlNet是基于Stable Diffusion 1.5进行训练的，通过添加额外的HED边界条件来控制图像生成过程。在训练过程中，使用了300万个边缘图像 - 标题对，经过600个GPU小时的训练，使得模型能够学习到HED边界与图像生成之间的关系。在推理阶段，通过StableDiffusionControlNetPipeline和ControlNetModel结合使用，利用输入的HED边界图像来引导图像生成。