Neopian-Diffusion开源文本生成图像模型 - 免费生成尼奥宠物风格图像

首页

Neopian Diffusion

由 doohickey 开发

基于稳定扩散v1.5的文本生成图像模型，专门训练用于生成尼奥宠物风格的图像

图像生成英语开源协议:Openrail #低分辨率图像生成 #复古游戏风格 #DreamBooth微调

下载量 146

发布时间 : 11/18/2022

模型简介

该模型通过DreamBooth技术微调，使用尼奥宠物网站的GIF图像数据进行训练，能够根据文本提示生成具有尼奥宠物风格的图像作品

模型特点

尼奥宠物风格适配

专门针对尼奥宠物网站图像风格进行训练，能生成符合该风格的图像

低分辨率优化

训练时采用特殊策略减轻低分辨率输入导致的伪影问题

两阶段训练

采用分阶段训练策略，先同时训练文本编码器和UNet，后专注于UNet训练

模型能力

文本生成图像

风格化图像生成

低分辨率图像优化

使用案例

创意艺术

尼奥宠物角色设计

根据文字描述生成尼奥宠物风格的角色图像

生成符合尼奥宠物风格的100x100像素图像

怀旧游戏艺术创作

为怀旧游戏开发者提供快速原型设计

生成具有早期网络游戏风格的图像素材

🚀 新派亚扩散模型 (开发中，模型仍在训练，风格尚未成型)

新派亚扩散模型基于稳定扩散模型开发，起始模型采用 runwayml/stable-diffusion-v1-5，并使用从 https://www.neopets.com/funimages.phtml 网站的GIF中提取的图像进行训练。在训练过程中，使用CLIP ViT - B/32（OpenAI）为每一个给定的标题/GIF对筛选出最匹配的GIF帧。选择球面距离最小的帧并保存用于训练，总共收集了约1950张尺寸约为100x100像素的图像。

为了减少最终结果中的伪影，在Colab T4上对DreamBooth模型进行微调时，会以不同权重将“低分辨率”一词添加到提示词中（可参考此链接，了解Discord上有人关于在训练文本反转时使用负向词的假设：https://cdn.discordapp.com/attachments/1008246088148463648/1041538692432527470/image.png）。

CLIP筛选出的GIF示例帧

标题	未处理的GIF	筛选出的帧
"yurble_baby_clap"

✨ 主要特性

基于稳定扩散模型，使用特定来源的GIF图像进行训练。
在训练过程中采用CLIP筛选最佳匹配帧。
尝试通过添加特定提示词减少伪影。

📦 安装指南

安装必要的库

⚠️ 重要提示

此模型目前仅可在至少配备一块支持CUDA的NVIDIA GPU的计算机上运行。

pip install diffusers transformers ftfy scipy accelerate

登录操作

若要登录，需使用 huggingface-cli login 命令。

💻 使用示例

导入必要的库

import torch
from torch import autocast
from diffusers.models import AutoencoderKL
from diffusers import StableDiffusionPipeline

创建管道

pipe = StableDiffusionPipeline.from_pretrained("doohickey/neopian-diffusion", use_auth_token=True)
pipe = pipe.to("cuda")

（可选）禁用NSFW过滤器

⚠️ 重要提示

不建议禁用此过滤器，但由于部分用户在使用一些基础提示词时遇到问题，因此提供此选项。请确保保护未成年人和敏感用户的安全。

def dummy(images, **kwargs): 
	return images, False
			
pipe.safety_checker = dummy

图像生成

prompt = "my prompt"

with autocast("cuda"):
  image = pipe(prompt=prompt, num_inference_steps=100, width=512, height=512, guidance_scale=15).images[0]
  
image.save("image.png")