sd-controlnet-mlsd开源模型 - 基于直线检测条件控制，助力图像生成创作！

首页

Sd Controlnet Mlsd

由 lllyasviel 开发

ControlNet是一种通过添加额外条件来控制扩散模型的神经网络结构，本检查点对应基于M-LSD直线检测条件训练的ControlNet模型。

图像生成其他开源协议:Openrail #直线控制图像生成 #建筑线条优化 #基于M-LSD检测

下载量 1,188

发布时间 : 2/24/2023

模型简介

ControlNet通过端到端学习任务特定条件，增强Stable Diffusion等大型扩散模型，使其能够接受边缘图、分割图、关键点等条件输入，从而丰富控制大型扩散模型的方法。

模型特点

条件控制

通过添加额外条件（如M-LSD直线检测）来控制扩散模型，实现更精确的图像生成。

小数据集训练

即使训练数据集较小（<5万）也能保持鲁棒性，训练速度与微调扩散模型相当。

可扩展性

在强大计算集群支持下，可扩展至百万至十亿级数据量。

模型能力

图像生成图像

条件控制图像生成

直线检测

使用案例

艺术创作

室内设计

根据直线检测结果生成室内设计效果图。

生成符合直线结构的室内设计图像。

建筑设计

建筑草图生成

根据直线检测结果生成建筑草图。

生成符合直线结构的建筑草图。

🚀 Controlnet - M-LSD直线版本

ControlNet是一种神经网络结构，通过添加额外条件来控制扩散模型。此检查点对应于基于M-LSD直线检测的ControlNet，可与Stable Diffusion结合使用。

🚀 快速开始

若要使用此模型，可按以下步骤操作：

安装https://github.com/patrickvonplaten/controlnet_aux

$ pip install controlnet_aux

安装diffusers及相关包：

$ pip pip install diffusers transformers accelerate

运行代码：

from PIL import Image
from diffusers import StableDiffusionControlNetPipeline, ControlNetModel, UniPCMultistepScheduler
import torch
from controlnet_aux import MLSDdetector
from diffusers.utils import load_image

mlsd = MLSDdetector.from_pretrained('lllyasviel/ControlNet')

image = load_image("https://huggingface.co/lllyasviel/sd-controlnet-mlsd/resolve/main/images/room.png")

image = mlsd(image)

controlnet = ControlNetModel.from_pretrained(
    "lllyasviel/sd-controlnet-mlsd", torch_dtype=torch.float16
)

pipe = StableDiffusionControlNetPipeline.from_pretrained(
    "runwayml/stable-diffusion-v1-5", controlnet=controlnet, safety_checker=None, torch_dtype=torch.float16
)

pipe.scheduler = UniPCMultistepScheduler.from_config(pipe.scheduler.config)

# Remove if you do not have xformers installed
# see https://huggingface.co/docs/diffusers/v0.13.0/en/optimization/xformers#installing-xformers
# for installation instructions
pipe.enable_xformers_memory_efficient_attention()

pipe.enable_model_cpu_offload()

image = pipe("room", image, num_inference_steps=20).images[0]

image.save('images/room_mlsd_out.png')

✨ 主要特性

条件控制：ControlNet可通过添加额外条件来控制扩散模型，实现如边缘图、分割图、关键点等条件输入。
多类型检查点：作者发布了8种不同的检查点，每种都基于不同类型的条件进行训练。

📦 安装指南

安装依赖

$ pip install controlnet_aux
$ pip pip install diffusers transformers accelerate

💻 使用示例

基础用法

from PIL import Image
from diffusers import StableDiffusionControlNetPipeline, ControlNetModel, UniPCMultistepScheduler
import torch
from controlnet_aux import MLSDdetector
from diffusers.utils import load_image

mlsd = MLSDdetector.from_pretrained('lllyasviel/ControlNet')

image = load_image("https://huggingface.co/lllyasviel/sd-controlnet-mlsd/resolve/main/images/room.png")

image = mlsd(image)

controlnet = ControlNetModel.from_pretrained(
    "lllyasviel/sd-controlnet-mlsd", torch_dtype=torch.float16
)

pipe = StableDiffusionControlNetPipeline.from_pretrained(
    "runwayml/stable-diffusion-v1-5", controlnet=controlnet, safety_checker=None, torch_dtype=torch.float16
)

pipe.scheduler = UniPCMultistepScheduler.from_config(pipe.scheduler.config)

# Remove if you do not have xformers installed
# see https://huggingface.co/docs/diffusers/v0.13.0/en/optimization/xformers#installing-xformers
# for installation instructions
pipe.enable_xformers_memory_efficient_attention()

pipe.enable_model_cpu_offload()

image = pipe("room", image, num_inference_steps=20).images[0]

image.save('images/room_mlsd_out.png')

📚 详细文档

模型详情

属性	详情
开发者	Lvmin Zhang, Maneesh Agrawala
模型类型	基于扩散的文本到图像生成模型
语言	英语
许可证	CreativeML OpenRAIL M许可证是一种Open RAIL M许可证，改编自BigScience和RAIL Initiative在负责任AI许可领域的联合工作。另见关于BLOOM Open RAIL许可证的文章，本许可证以此为基础。
更多信息资源	GitHub仓库，论文
引用方式	@misc{zhang2023adding, title={Adding Conditional Control to Text-to-Image Diffusion Models}, author={Lvmin Zhang and Maneesh Agrawala}, year={2023}, eprint={2302.05543}, archivePrefix={arXiv}, primaryClass={cs.CV} }

发布的检查点

作者发布了8种不同的检查点，每种都基于Stable Diffusion v1-5在不同类型的条件下进行训练：

模型名称	控制图像概述	控制图像示例	生成图像示例
lllyasviel/sd-controlnet-canny 基于Canny边缘检测训练	黑色背景上带有白色边缘的单色图像。
lllyasviel/sd-controlnet-depth 基于Midas深度估计训练	黑色代表深区域，白色代表浅区域的灰度图像。
lllyasviel/sd-controlnet-hed 基于HED边缘检测（软边缘）训练	黑色背景上带有白色软边缘的单色图像。
lllyasviel/sd-controlnet-mlsd 基于M-LSD线检测训练	黑色背景上仅由白色直线组成的单色图像。
lllyasviel/sd-controlnet-normal 基于法线贴图训练	法线贴图图像。
lllyasviel/sd-controlnet_openpose 基于OpenPose骨骼图像训练	OpenPose骨骼图像。
lllyasviel/sd-controlnet_scribble 基于人类涂鸦训练	黑色背景上带有白色轮廓的手绘单色图像。
lllyasviel/sd-controlnet_seg 基于语义分割训练	ADE20K的分割协议图像。

训练

霍夫线模型在60万个边缘图像 - 标题对上进行训练。该数据集由Places2生成，使用BLIP生成文本标题，使用深度霍夫变换生成边缘图像。模型以Canny模型为基础模型，使用Nvidia A100 80G进行了160个GPU小时的训练。

博客文章

更多信息请查看ControlNet官方博客文章。

🔧 技术细节

ControlNet由Lvmin Zhang和Maneesh Agrawala在论文Adding Conditional Control to Text-to-Image Diffusion Models中提出。其摘要如下：

我们提出了一种神经网络结构ControlNet，用于控制预训练的大型扩散模型以支持额外的输入条件。ControlNet以端到端的方式学习特定任务的条件，即使训练数据集较小（< 50k），学习过程也很稳健。此外，训练ControlNet的速度与微调扩散模型一样快，并且可以在个人设备上进行训练。或者，如果有强大的计算集群，模型可以扩展到大量（数百万到数十亿）的数据。我们发现，像Stable Diffusion这样的大型扩散模型可以通过ControlNet进行增强，以实现如边缘图、分割图、关键点等条件输入。这可能会丰富控制大型扩散模型的方法，并进一步促进相关应用的发展。