许可证:其他
许可证名称:stabilityai-ai-community
许可证链接:LICENSE.md
标签:
- stable-diffusion
- controlnet
推理:true
额外授权提示:>-
点击“同意”即表示您同意许可协议,
并确认已阅读Stability AI的隐私政策。
额外授权字段:
姓名:文本
邮箱:文本
国家:国家
组织或隶属关系:文本
是否接收Stability AI产品、服务及研究的邮件更新与促销?:
类型:选择
选项:
- '是'
- '否'
您计划如何使用该模型?:
类型:选择
选项:
- 研究
- 个人使用
- 创意专业人士
- 初创企业
- 企业
我同意许可协议并确认Stability AI的隐私政策:复选框
语言:
Stable Diffusion 3.5 Large Controlnet - 深度

模型
本仓库提供Stable Diffusion 3.5 Large的深度ControlNet。
请注意:本模型基于Stability社区许可协议发布。访问Stability AI了解详情,或联系我们获取商业授权信息。
许可协议
核心条款摘要:
- 非商业用途免费:个人及组织可免费将模型用于非商业用途(含科研)。
- 商业用途免费(年营收低于100万美元):初创企业、中小型公司及创作者可免费商用,年营收门槛为100万美元。
- 输出内容所有权:生成内容的所有权归使用者所有,无限制性许可条款。
年营收超100万美元的组织,请通过此链接联系获取企业授权。
使用指南
在SD3.5独立仓库中使用Controlnets
安装仓库:
git clone git@github.com:Stability-AI/sd3.5.git
pip install -r requirements.txt
按以下结构下载模型与示例图片:
input/sample_cond.png
models/clip_g.safetensors
models/clip_l.safetensors
models/t5xxl.safetensors
models/sd3.5_large.safetensors
models/canny_8b.safetensors
运行命令:
python sd3_infer.py --controlnet_ckpt models/depth_8b.safetensors --controlnet_cond_image input/sample_cond.png --prompt "女孩坐在咖啡馆里,温馨室内环境,HDR摄影"
将生成如下效果图:

通过Diffusers使用Controlnets
确保升级至最新diffusers版本:pip install -U diffusers
,然后运行:
import torch
from diffusers import StableDiffusion3ControlNetPipeline, SD3ControlNetModel
from diffusers.utils import load_image
controlnet = SD3ControlNetModel.from_pretrained("stabilityai/stable-diffusion-3.5-large-controlnet-depth", torch_dtype=torch.float16)
pipe = StableDiffusion3ControlNetPipeline.from_pretrained(
"stabilityai/stable-diffusion-3.5-large",
controlnet=controlnet,
torch_dtype=torch.float16,
).to("cuda")
control_image = load_image("https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/marigold/marigold_einstein_lcm_depth.png")
generator = torch.Generator(device="cpu").manual_seed(0)
image = pipe(
prompt = "男子肖像照片",
control_image=control_image,
guidance_scale=4.5,
num_inference_steps=40,
generator=generator,
max_sequence_length=77,
).images[0]
image.save('depth-8b.jpg')
可使用image_gen_aux
提取depth_image
(包含与diffusers管道兼容的所有预处理模块):
from image_gen_aux import DepthPreprocessor
image = load_image("图片路径")
depth_preprocessor = DepthPreprocessor.from_pretrained("depth-anything/Depth-Anything-V2-Large-hf").to("cuda")
depth_image = depth_preprocessor(image, invert=True)[0].convert("RGB")
预处理
输入图片可通过以下代码预处理为控制图。SD3.5未内置此功能,建议在外部脚本中完成:
import torchvision.transforms as transforms
from depthfm.dfm import DepthFM
depthfm_model = DepthFM(ckpt_path=checkpoint_path)
depthfm_model.eval()
img = F.to_tensor(img)
c, h, w = img.shape
img = F.interpolate(img, (512, 512), mode='bilinear', align_corners=False)
with torch.no_grad():
img = self.depthfm_model(img, num_steps=2, ensemble_size=4)
img = F.interpolate(img, (h, w), mode='bilinear', align_corners=False)
使用技巧
- 建议初始ControlNet强度设为0.7,按需调整
- Euler采样器配合50-60步数效果最佳
- 添加
--text_encoder_device <设备名>
参数可将文本编码器直接加载至VRAM,提升推理速度(需额外显存)
用途限制
所有使用行为需遵守可接受使用政策。
非适用场景
本模型未针对人物/事件的真实性进行训练,因此生成此类内容超出模型能力范围。
训练数据与策略
模型训练数据包含合成数据及经过筛选的公开数据。
安全性
我们秉持负责任AI理念,在开发早期即采取完整性保障措施。详情参见安全页面。
完整性评估
通过结构化评估与红队测试验证潜在危害(主要基于英语环境,可能未覆盖全部风险)。
已识别风险及缓解措施:
- 有害内容:采用过滤数据集并设置安全护栏,但无法完全消除风险。开发者应根据具体场景部署内容安全机制。
- 滥用行为:技术限制结合用户教育可降低恶意使用概率。所有用户需遵守可接受使用政策。
- 隐私侵犯:建议开发者遵循隐私法规并采用数据保护技术。
致谢
- ControlNet论文作者Lvmin Zhang、Anyi Rao和Maneesh Agrawala
- Tile ControlNet开发者Lvmin Zhang
- Diffusers库开发团队
- InstantX团队提供的Flux及SD3 ControlNets参考
- 所有早期测试人员及Stability AI团队
联系方式
问题反馈渠道:
- 安全问题:safety@stability.ai
- 技术问题:security@stability.ai
- 隐私问题:privacy@stability.ai
- 授权咨询:https://stability.ai/license
- 企业授权:https://stability.ai/enterprise