推理: true
标签:
- 稳定扩散
- 稳定扩散-扩散器
- 文本到图像
许可证: 创作共用开放RAIL-M
请注意!
本模型并非TrinArt上1920万张图像的字符模型,而是对原始Trin-sama推特机器人模型的改进版本。该模型旨在尽可能保留原始SD美学风格的同时,引导模型向动漫/漫画风格靠拢。
其他TrinArt模型可在以下地址找到:
https://huggingface.co/naclbit/trinart_derrida_characters_v2_stable_diffusion
https://huggingface.co/naclbit/trinart_characters_19.2m_stable_diffusion_v1
扩散器
模型已由ayan4m1移植至diffusers
框架,可通过以下分支版本轻松运行:
revision="diffusers-60k"
对应6万步训练的检查点
revision="diffusers-95k"
对应9.5万步训练的检查点
revision="diffusers-115k"
对应11.5万步训练的检查点
更多信息请参阅「三种风味」章节。
Gradio
我们还支持通过Gradio网页界面在Colab笔记本中运行扩散器:
文本转图像示例
from diffusers import StableDiffusionPipeline
pipe = StableDiffusionPipeline.from_pretrained("naclbit/trinart_stable_diffusion_v2", revision="diffusers-60k")
pipe.to("cuda")
image = pipe("奇幻巨龙飞越喜马拉雅山脉的漫画风格画面").images[0]
image

如需加速运行或适配不同硬件,请参阅优化文档。
图像转图像示例
from diffusers import StableDiffusionImg2ImgPipeline
import requests
from PIL import Image
from io import BytesIO
url = "https://scitechdaily.com/images/Dog-Park.jpg"
response = requests.get(url)
init_image = Image.open(BytesIO(response.content)).convert("RGB")
init_image = init_image.resize((768, 512))
pipe = StableDiffusionImg2ImgPipeline.from_pretrained("naclbit/trinart_stable_diffusion_v2", revision="diffusers-115k")
pipe.to("cuda")
images = pipe(prompt="布拉德·皮特的漫画肖像", init_image=init_image, strength=0.75, guidance_scale=7.5).images
image
如需加速运行或适配不同硬件,请参阅优化文档。
稳定扩散TrinArt/Trin-sama AI微调版v2
trinart_stable_diffusion是通过约4万张精选高清动漫/漫画风格图片进行8轮微调的SD模型。该模型与推特机器人@trinsama (https://twitter.com/trinsama) 所用模型相同。
版本2
V2检查点采用dropout技术,新增1万张图像,改进标注策略并延长训练时长,在保持原始美学风格的同时提升输出质量。
三种风味
11.5万步/9.5万步检查点经过更长时间训练,若风格偏离过大可选用6万步检查点。
图像转图像
若需使用latent-diffusion原版ddim图像转换脚本运行本模型,必须将use_ema参数设为False。
硬件配置
训练信息
- 自定义数据加载器含增强功能:水平翻转、中心裁剪及固定宽高比缩放
- 学习率:1.0e-5
- 10% dropout率
示例
所有图像均采用K. Crowson的k-lms(来自k-diffusion库)方法进行50步扩散生成。

致谢
- Sta, AI Novelist开发者 (https://ai-novel.com/) @ Bit192公司
- 稳定扩散团队 - Rombach, Robin及Blattmann, Andreas等
许可协议
创作共用开放RAIL-M