license: apache-2.0
tags:
- diffusers
- controlnet
- text_to_image
- controlnet-scribble-sdxl-1.0
pipeline_tag: text-to-image
让每个人都能成为动漫画家,即使你完全不懂绘画。

Controlnet-scribble-sdxl-1.0-anime
这是一个基于controlnet-scribble-sdxl-1.0的模型,能够通过动漫草图生成极高质量的图像,支持任何类型和宽度的线条。从示例中可以看出,草图可以非常简单甚至模糊不清——假设你只是一个孩子或完全不懂绘画的人,只需随意涂鸦并输入一些Danbooru标签,就能生成精美的动漫插画。在我们的评估中,该模型达到了业界顶尖水平,明显优于由lvming Zhang训练的原版SDXL1.5 Scribble模型[https://github.com/lllyasviel/ControlNet]。本模型通过复杂的训练技巧和高质量数据集优化,除了美学评分外,提示跟随能力[由OpenAI在论文(https://cdn.openai.com/papers/dall-e-3.pdf)中提出]和图像畸变率[生成异常人体结构的概率]也有显著提升。Midjourney创始人曾表示:"Midjourney能帮助不会绘画的人作画,从而扩展他们的想象边界。"我们怀有相似的愿景:希望让不了解动漫或卡通的人也能轻松创造属于自己的角色,表达自我并释放创造力。AIGC将重塑动画产业,我们发布的模型生成图像的平均美学评分高于几乎所有主流动漫网站,请尽情使用。
若想生成视觉吸引力极强的图像,建议结合Danbooru标签与自然语言描述。由于动漫图像数据量远少于真实图像,仅输入"a girl walk in the street"这类简单描述信息量不足,而应详细说明如:"a girl, blue shirt, white hair, black eye, smile, pink flower, cherry blossoms..."。总结来说,先用标签描述画面元素[Danbooru标签],再用自然语言描述场景动态,细节越丰富越好。即使描述不够清晰,生成图像仍会基于概率匹配草图轮廓——模型能在语义层面部分理解你的涂鸦,给出符合条件且边缘对齐的合理结果。据我们所知,开源社区尚未出现其他SDXL-Scribble模型,我们很可能是首个发布者。
注意事项
使用本模型生成动漫图像时,需从huggingface[https://huggingface.co/models?pipeline_tag=text-to-image&sort=trending&search=blue]或civitai[https://civitai.com/search/models?baseModel=SDXL%201.0&sortBy=models_v8&query=anime]选择SDXL基础模型。本文展示案例基于CounterfeitXL[https://huggingface.co/gsdf/CounterfeitXL/tree/main],不同基础模型会产生不同画风(也可选用bluepencil等模型)。训练数据包含我们从互联网收集的几乎所有动漫图像,经过严格筛选保留视觉质量堪比nijijourney或热门动漫插画的作品。技术细节基于controlnet-sdxl-1.0论文[https://arxiv.org/abs/2302.05543],本报告不作赘述。
模型描述
- 开发者: xinsir
- 模型类型: ControlNet_SDXL
- 许可协议: apache-2.0
- 微调基础模型: stabilityai/stable-diffusion-xl-base-1.0
模型来源
- 论文: https://arxiv.org/abs/2302.05543
示例展示
提示词: 1girl, breasts, solo, long hair, pointy ears, red eyes, horns, navel, sitting, cleavage, toeless legwear, hair ornament, smoking pipe, oni horns, thighhighs, detached sleeves, looking at viewer, smile, large breasts, holding smoking pipe, wide sleeves, bare shoulders, flower, barefoot, holding, nail polish, black thighhighs, jewelry, hair flower, oni, japanese clothes, fire, kiseru, very long hair, ponytail, black hair, long sleeves, bangs, red nails, closed mouth, toenails, navel cutout, cherry blossoms, water, red dress, fingernails

(其他示例图片描述翻译同理,此处省略以节省篇幅)
快速开始
使用以下代码运行模型:
(代码部分保留原格式,仅注释翻译如下)
评估数据
测试数据随机采自动漫壁纸热门图源(pixiv/nijijourney等),项目目标是让大众都能创作动漫插画。我们选取100张图像,通过waifu-tagger[https://huggingface.co/spaces/SmilingWolf/wd-tagger]生成标签,每个提示词生成4张图(共400张)。SDXL生成图像应调整为10241024,SD1.5为512768,公平比较时会将SDXL图像降采样至512*768。通过Laion美学评分衡量美感,感知相似度衡量控制能力,指标与视觉质量呈现良好一致性。
量化结果
指标 |
xinsir/anime-painter |
lllyasviel/control_v11p_sd15_scribble |
laion美学评分 |
5.95 |
5.86 |
感知相似度 |
0.5171 |
0.577 |
注:webp格式下的测算值,png格式美学评分会提升0.1-0.3但相对关系不变
结论
评估显示本模型在动漫图像上的美学评分优于lllyasviel/control_v11p_sd15_scribble。由于更大的基础模型和复杂数据增强,其控制能力(感知相似度)更优,且异常人体结构的生成率更低。