ControlNet v1.1开源AI模型 - 支持瓦片图像条件的免费图像生成与超分

首页

Control V11f1e Sd15 Tile

由 lllyasviel 开发

ControlNet v1.1 是一个通过添加额外条件来控制预训练大型扩散模型的神经网络结构，特别适用于基于瓦片图像条件的图像生成和超分辨率任务。

图像生成其他开源协议:Openrail #图像超分辨率 #细节增强 #分块处理

下载量 14.39k

发布时间 : 5/4/2023

模型简介

该模型基于 Stable Diffusion v1-5 训练，能够根据输入的瓦片图像条件生成高质量图像，适用于图像增强、细节生成等场景。

模型特点

瓦片图像条件控制

能够根据输入的瓦片图像条件生成相同大小的高质量细节图像，类似于超分辨率模型但功能更广泛。

高效训练

即使在小数据集（<5万样本）上也能保持稳健学习，训练速度与微调扩散模型相当。

兼容性强

可与 Stable Diffusion v1-5 及其他扩散模型（如 dreamboothed stable diffusion）配合使用。

模型能力

图像超分辨率

细节增强

条件图像生成

图像到图像转换

使用案例

图像处理

图像细节增强

对低分辨率或模糊图像进行细节增强和超分辨率处理

生成与输入图像相同大小但包含更丰富细节的高质量图像

艺术创作

基于瓦片图像条件生成艺术风格图像

保持输入图像结构的同时添加艺术风格细节

🚀 Controlnet - v1.1 - Tile版本

Controlnet v1.1是一种强大的神经网络结构，可通过添加额外条件来控制扩散模型。本项目提供了该模型的特定版本（Tile版本），可与Stable Diffusion结合使用，为图像生成带来更多可能性。

🚀 快速开始

Controlnet v1.1 由 Lvmin Zhang 在 lllyasviel/ControlNet-v1-1 中发布。

此检查点是将原始检查点转换为 diffusers 格式后的版本。它可以与 Stable Diffusion 结合使用，例如 runwayml/stable-diffusion-v1-5。

更多详细信息，请查看 🧨 Diffusers文档。

ControlNet是一种神经网络结构，通过添加额外条件来控制扩散模型。

此检查点对应于基于 平铺图像 进行条件控制的ControlNet。从概念上讲，它类似于超分辨率模型，但用途不仅限于此，也可以生成与输入（条件）图像相同大小的细节。

本模型由 takuma104 贡献

✨ 主要特性

可与Stable Diffusion结合使用，增强图像生成能力。
基于平铺图像进行条件控制，适用于多种图像生成场景。
训练速度快，可在个人设备上进行训练。

📦 安装指南

安装依赖包

$ pip install diffusers transformers accelerate

💻 使用示例

基础用法

import torch
from PIL import Image
from diffusers import ControlNetModel, DiffusionPipeline
from diffusers.utils import load_image

def resize_for_condition_image(input_image: Image, resolution: int):
    input_image = input_image.convert("RGB")
    W, H = input_image.size
    k = float(resolution) / min(H, W)
    H *= k
    W *= k
    H = int(round(H / 64.0)) * 64
    W = int(round(W / 64.0)) * 64
    img = input_image.resize((W, H), resample=Image.LANCZOS)
    return img

controlnet = ControlNetModel.from_pretrained('lllyasviel/control_v11f1e_sd15_tile', 
                                             torch_dtype=torch.float16)
pipe = DiffusionPipeline.from_pretrained("runwayml/stable-diffusion-v1-5",
                                         custom_pipeline="stable_diffusion_controlnet_img2img",
                                         controlnet=controlnet,
                                         torch_dtype=torch.float16).to('cuda')
pipe.enable_xformers_memory_efficient_attention()

source_image = load_image('https://huggingface.co/lllyasviel/control_v11f1e_sd15_tile/resolve/main/images/original.png')

condition_image = resize_for_condition_image(source_image, 1024)
image = pipe(prompt="best quality", 
             negative_prompt="blur, lowres, bad anatomy, bad hands, cropped, worst quality", 
             image=condition_image, 
             controlnet_conditioning_image=condition_image, 
             width=condition_image.size[0],
             height=condition_image.size[1],
             strength=1.0,
             generator=torch.manual_seed(0),
             num_inference_steps=32,
            ).images[0]

image.save('output.png')

original tile_output

高级用法

暂无高级用法示例，你可以根据基础用法进行扩展和调整。

📚 详细文档

模型详情

属性	详情
开发者	Lvmin Zhang, Maneesh Agrawala
模型类型	基于扩散的文本到图像生成模型
语言	英语
许可证	CreativeML OpenRAIL M许可证是一种 Open RAIL M许可证，改编自 BigScience 和 RAIL Initiative 在负责任AI许可领域的工作。有关我们许可证所基于的 BLOOM Open RAIL许可证的文章也可供参考。
更多信息资源	GitHub仓库，论文
引用格式	@misc{zhang2023adding, title={Adding Conditional Control to Text-to-Image Diffusion Models}, author={Lvmin Zhang and Maneesh Agrawala}, year={2023}, eprint={2302.05543}, archivePrefix={arXiv}, primaryClass={cs.CV} }

模型介绍

Controlnet由Lvmin Zhang和Maneesh Agrawala在 Adding Conditional Control to Text-to-Image Diffusion Models 中提出。

论文摘要如下：

我们提出了一种神经网络结构ControlNet，用于控制预训练的大型扩散模型以支持额外的输入条件。ControlNet以端到端的方式学习特定任务的条件，即使训练数据集较小（< 50k），学习过程也很稳健。此外，训练ControlNet的速度与微调扩散模型的速度一样快，并且可以在个人设备上进行训练。或者，如果有强大的计算集群可用，模型可以扩展到处理大量（数百万到数十亿）的数据。我们报告称，像Stable Diffusion这样的大型扩散模型可以通过ControlNet进行增强，以支持边缘图、分割图、关键点等条件输入。这可能会丰富控制大型扩散模型的方法，并进一步促进相关应用的发展。

其他已发布的检查点 v1-1

作者发布了14种不同的检查点，每种都在 Stable Diffusion v1-5 上针对不同类型的条件进行了训练：

模型名称	控制图像概述	条件图像
lllyasviel/control_v11p_sd15_canny	使用Canny边缘检测进行训练	黑色背景上带有白色边缘的单色图像。
lllyasviel/control_v11e_sd15_ip2p	使用像素到像素指令进行训练	无特定条件。
lllyasviel/control_v11p_sd15_inpaint	使用图像修复进行训练	无特定条件。
lllyasviel/control_v11p_sd15_mlsd	使用多级线段检测进行训练	带有注释线段的图像。
lllyasviel/control_v11f1p_sd15_depth	使用深度估计进行训练	带有深度信息的图像，通常表示为灰度图像。
lllyasviel/control_v11p_sd15_normalbae	使用表面法线估计进行训练	带有表面法线信息的图像，通常表示为彩色编码图像。
lllyasviel/control_v11p_sd15_seg	使用图像分割进行训练	带有分割区域的图像，通常表示为彩色编码图像。
lllyasviel/control_v11p_sd15_lineart	使用线稿生成进行训练	带有线稿的图像，通常是白色背景上的黑色线条。
lllyasviel/control_v11p_sd15s2_lineart_anime	使用动漫线稿生成进行训练	带有动漫风格线稿的图像。
lllyasviel/control_v11p_sd15_openpose	使用人体姿态估计进行训练	带有人体姿态的图像，通常表示为一组关键点或骨架。
lllyasviel/control_v11p_sd15_scribble	使用基于涂鸦的图像生成进行训练	带有涂鸦的图像，通常是随机或用户绘制的笔触。
lllyasviel/control_v11p_sd15_softedge	使用软边缘图像生成进行训练	带有软边缘的图像，通常用于创建更具绘画感或艺术效果的图像。
lllyasviel/control_v11e_sd15_shuffle	使用图像打乱进行训练	带有打乱的补丁或区域的图像。
lllyasviel/control_v11f1e_sd15_tile	使用图像平铺进行训练	模糊图像或图像的一部分。