EcomXL_controlnet_softedge开源模型 - 免费部署，助力电商与通用场景图像生成

首页

Ecomxl Controlnet Softedge

由 alimama-creative 开发

EcomXL 是一个针对电商场景优化的文本到图像扩散模型，基于 Stable Diffusion XL 开发，具备通用和电商场景的优秀生成能力。

图像生成英语开源协议:Apache-2.0 #电商图像生成 #软边缘控制 #SDXL微调

下载量 178

发布时间 : 4/29/2024

模型简介

该模型是基于 Stable Diffusion XL 微调的 ControlNet 权重，特别优化了电商场景的图像生成，同时在通用场景也表现良好。

模型特点

电商场景优化

训练数据包含大量淘宝电商数据，特别适合电商相关的图像生成

软边缘控制

支持使用软边缘(softedge)作为控制条件，包括 pidinet、hed 等多种边缘检测方法

高质量生成

训练数据精选美学评分6+的图像，确保生成质量

宽泛适用性

在 SDXL 及基于 SDXL 的社区模型中表现良好

模型能力

文本到图像生成

边缘控制图像生成

电商场景图像生成

通用场景图像生成

使用案例

电商

商品展示图生成

根据商品描述生成高质量的商品展示图像

可生成符合电商平台要求的商品主图

创意设计

艺术创作

根据文本描述生成创意艺术作品

可生成具有艺术性的图像作品

🚀 软边缘控制网络（Softedge ControlNet）

EcomXL 包含一系列为电商场景优化的文本到图像扩散模型，它基于 Stable Diffusion XL 开发。控制网络的权重是在 stable-diffusion-xl-base-1.0 的基础上进行微调的。它在 SDXL 以及基于 SDXL 的社区模型上都能有出色的表现。该模型在通用数据和淘宝电商数据上进行训练，在通用场景和电商场景中都具备良好的能力。

✨ 主要特性

基于 Stable Diffusion XL 开发，适用于电商场景。
控制网络权重经过微调，在 SDXL 及相关社区模型上表现良好。
在通用数据和淘宝电商数据上训练，兼顾通用和电商场景。

💻 使用示例

基础用法

from diffusers import (
    ControlNetModel,
    StableDiffusionXLControlNetPipeline,
    DPMSolverMultistepScheduler,
    AutoencoderKL
)
from diffusers.utils import load_image
from controlnet_aux import PidiNetDetector, HEDdetector
import torch
from PIL import Image

controlnet = ControlNetModel.from_pretrained(
    "alimama-creative/EcomXL_controlnet_softedge", torch_dtype=torch.float16, use_safetensors=True
)
vae = AutoencoderKL.from_pretrained('madebyollin/sdxl-vae-fp16-fix', torch_dtype=torch.float16)
pipe = StableDiffusionXLControlNetPipeline.from_pretrained(
    "stabilityai/stable-diffusion-xl-base-1.0", 
    controlnet=controlnet, 
    vae=vae,
    torch_dtype=torch.float16
)

pipe.scheduler = DPMSolverMultistepScheduler.from_config(pipe.scheduler.config)
# pipe.enable_xformers_memory_efficient_attention()
pipe.to(device="cuda", dtype=torch.float16)
pipe.enable_vae_slicing()


image = load_image(
    "https://huggingface.co/alimama-creative/EcomXL_controlnet_softedge/resolve/main/images/1_1.png"
)
edge_processor = PidiNetDetector.from_pretrained('lllyasviel/Annotators')
edge_image = edge_processor(image, safe=False) # set True to use pidisafe

prompt="a bottle on the Twilight Grassland, Sitting on the ground, a couple of tall grass sitting in a field of tall grass, sunset,"
negative_prompt = "low quality, bad quality, sketches"

output = pipe(
    prompt, 
    negative_prompt=negative_prompt, 
    image=edge_image, 
    num_inference_steps=25,
    controlnet_conditioning_scale=0.6,
    guidance_scale=7,
    width=1024,
    height=1024,
).images[0]

output.save(f'test_edge.png')

高级用法

该模型在控制网络权重（controlnet_condition_scale）处于 0.6 到 0.8 的范围内时表现良好。可以根据实际需求调整该权重值以获得更好的效果。

🔧 技术细节

混合精度：FP16
学习率：1e-5
批量大小：1024
噪声偏移：0.05
训练步数：37k

训练数据包括 1200 万条 laion2B 和内部来源的美学评分为 6 分以上的图像，以及 300 万条淘宝电商图像。训练期间的软边缘预处理器从 Automatic&&Mikubill 官方支持的 pidinet、hed、pidisafe 和 hedsafe 中随机选择。当权重在 0.6~0.8 之间时，模型表现良好。