license: openrail++
language:
- en
thumbnail: "https://huggingface.co/Linaqruf/hermitage-xl/resolve/main/sample_images/thumbnail.png"
pipeline_tag: text-to-image
tags:
- stable-diffusion
- stable-diffusion-diffusers
inference: true
widget:
- text: >-
大师级作品,最佳质量,1女孩,棕色头发,绿色眼睛,多彩,秋天,积雨云,光线,蓝天,落叶,花园
example_title: 示例 1女孩
- text: >-
大师级作品,最佳质量,1男孩,中等长度头发,金色头发,蓝色眼睛,美少年,多彩,秋天,积雨云,光线,蓝天,落叶,花园
example_title: 示例 1男孩
library_name: diffusers
Hermitage XL
概述
Hermitage XL 是一个高分辨率的潜在文本到图像扩散模型。该模型在精选的高质量动漫风格图像数据集上,以4e-7的学习率、批量大小为16进行了5000步的微调。此模型基于Stable Diffusion XL 1.0衍生而来。
例如:1女孩,白色头发,金色眼睛,美丽的眼睛,细节,花海,积雨云,光线,细致的天空,花园
特点
- 高分辨率图像:模型以1024x1024分辨率训练。使用 NovelAI 宽高比分桶工具 进行训练,支持非正方形分辨率。
- 动漫风格生成:基于给定的文本提示,模型能生成高质量的动漫风格图像。
- 微调扩散过程:通过精细调整的扩散过程确保高质量和独特的图像输出。
模型详情
使用方法:
- 下载
Hermitage XL
此处,模型为 .safetensors
格式。
- 需使用Danbooru风格的标签作为提示,而非自然语言,否则将得到写实风格而非动漫效果。
- 可使用通用负面提示,或以下建议的负面提示以引导模型生成高美学图像:
低分辨率,解剖结构错误,手部错误,文字,错误,缺失手指,多余手指,手指数量不足,裁剪,最差质量,低质量,普通质量,JPEG伪影,签名,水印,用户名,模糊
大师级作品,最佳质量,插画,精美细节,细致入微,戏剧性光线,复杂细节
🧨 Diffusers
确保升级diffusers至>= 0.18.2版本:
pip install diffusers --upgrade
此外,还需安装 transformers
、safetensors
、accelerate
以及不可见水印:
pip install invisible_watermark transformers accelerate safetensors
运行管道(如果不更换调度器,将默认使用 EulerDiscreteScheduler,本例中我们替换为 EulerAncestralDiscreteScheduler):
import torch
from torch import autocast
from diffusers.models import AutoencoderKL
from diffusers import StableDiffusionXLPipeline, EulerAncestralDiscreteScheduler
model = "Linaqruf/hermitage-xl"
vae = AutoencoderKL.from_pretrained("stabilityai/sdxl-vae")
pipe = StableDiffusionXLPipeline.from_pretrained(
model,
torch_dtype=torch.float16,
use_safetensors=True,
variant="fp16",
vae=vae
)
pipe.scheduler = EulerAncestralDiscreteScheduler.from_config(pipe.scheduler.config)
pipe.to('cuda')
prompt = "大师级作品,最佳质量,1女孩,绿色头发,毛衣,看向观众,上半身,贝雷帽,户外,水彩,夜晚,高领毛衣"
negative_prompt = "低分辨率,解剖结构错误,手部错误,文字,错误,缺失手指,多余手指,手指数量不足,裁剪,最差质量,低质量,普通质量,JPEG伪影,签名,水印,用户名,模糊"
image = pipe(
prompt,
negative_prompt=negative_prompt,
width=1024,
height=1024,
guidance_scale=12,
target_size=(1024,1024),
original_size=(4096,4096),
num_inference_steps=50
).images[0]
image.save("anime_girl.png")
限制
- 本模型继承 Stable Diffusion XL 1.0 的 限制
- 本模型存在过拟合问题,难以准确遵循提示,因其仅在小规模数据集上微调了5000步。
- 仅作为预览模型,用于寻找 Stable Diffusion XL 1.0 的最佳超参数和训练配置。
示例
以下是一些精选样本及与现有模型的对比: