🚀 SDXL-controlnet: OpenPose (v2)
SDXL-controlnet: OpenPose (v2) 是基于 stabilityai/stable-diffusion-xl-base-1.0 训练得到的 ControlNet 权重,使用 OpenPose (v2) 进行条件控制。它可以实现文本到图像的转换,通过输入特定的文本描述,生成相应的图像。
✨ 主要特性
- 基于 Stable Diffusion XL 基础模型,结合 OpenPose (v2) 条件控制,能够生成具有特定姿态的图像。
- 支持在 🧨 diffusers 库中使用,方便开发者进行集成和调用。
📦 安装指南
首先,安装所有必要的库:
pip install -q controlnet_aux transformers accelerate
pip install -q git+https://github.com/huggingface/diffusers
💻 使用示例
基础用法
以下是一个使用该模型生成图像的示例代码,让 Darth Vader 在沙漠中跳舞:
from diffusers import AutoencoderKL, StableDiffusionXLControlNetPipeline, ControlNetModel, UniPCMultistepScheduler
import torch
from controlnet_aux import OpenposeDetector
from diffusers.utils import load_image
openpose = OpenposeDetector.from_pretrained("lllyasviel/ControlNet")
image = load_image(
"https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/diffusers/person.png"
)
openpose_image = openpose(image)
controlnet = ControlNetModel.from_pretrained("thibaud/controlnet-openpose-sdxl-1.0", torch_dtype=torch.float16)
pipe = StableDiffusionXLControlNetPipeline.from_pretrained(
"stabilityai/stable-diffusion-xl-base-1.0", controlnet=controlnet, torch_dtype=torch.float16
)
pipe.enable_model_cpu_offload()
prompt = "Darth vader dancing in a desert, high quality"
negative_prompt = "low quality, bad quality"
images = pipe(
prompt,
negative_prompt=negative_prompt,
num_inference_steps=25,
num_images_per_prompt=4,
image=openpose_image.resize((1024, 1024)),
generator=torch.manual_seed(97),
).images
images[0]
示例图片
- 提示词:a ballerina, romantic sunset, 4k photo

Comfy 工作流

⚠️ 重要提示
图片来自 ComfyUI,你可以在 Comfy 中拖放该图片以作为工作流使用。
📚 详细文档
训练相关信息
- 训练脚本:使用 HF🤗 的训练脚本,可参考 此处。
- 训练数据:该检查点首先在 laion 6a 上进行了 15,000 步的训练,数据被调整为最大最小尺寸为 768。
- 计算资源:使用一台 1xA100 机器(非常感谢 HF🤗 提供计算资源!)。
- 批量大小:数据并行,单 GPU 批量大小为 2,梯度累积为 8。
- 超参数:恒定学习率为 8e-5。
- 混合精度:fp16
📄 许可证
许可证参考 OpenPose 的许可证。