doohickey-mega开源图像合成模型 - 支持多分辨率比例高分辨率图像合成

首页

Doohickey Mega

由 doohickey 开发

专为高分辨率图像合成优化的稳定扩散模型系列，基于Stable Diffusion v1-5微调，支持多种分辨率比例

图像生成 #高分辨率图像合成 #多比例支持 #手部细节优化

下载量 186

发布时间 : 11/12/2022

模型简介

基于runwayml/stable-diffusion-v1-5微调的文本到图像生成模型，特别优化了768x768分辨率附近的图像合成质量，支持多种比例输出

模型特点

高分辨率优化

专门针对768x768分辨率附近进行微调，生成高质量图像

多种比例支持

支持640x640至768x768多种输出比例（如768x640/704x768）

手部细节优化

v3-6000及后续版本特别优化了手部细节表现

改进的CLIP模型

v3版本采用laion/CLIP-ViT-L-14-laion2B-s32B-b82K模型并同步微调

模型能力

文本到图像生成

高分辨率图像合成

多种比例图像生成

使用案例

创意设计

概念艺术创作

根据文本描述生成高分辨率概念艺术图像

768x768分辨率的高质量艺术作品

数字插画生成

快速生成各种风格的插画作品

支持多种比例的专业级插画

商业应用

广告素材生成

为营销活动快速生成高质量视觉素材

可直接用于商业用途的高清图像

🚀 高分辨率图像合成模型

本项目的模型更适合用于高分辨率图像合成。主模型（doohickey/doohickey-mega）是基于 runwayml/stable-diffusion-v1-5 在接近 768x768 的分辨率下微调得到的（建议使用 Doohickey 从该模型生成图像）。

✨ 主要特性

专为高分辨率图像合成而设计。
基于 Stable Diffusion v1-5 进行微调。

📚 详细文档

当前模型

名称	描述	使用的数据集
doohickey/doohickey-mega/v1-3000steps.ckpt	首次尝试，高清效果非常好，但在非 1:1 宽高比下效果不佳，在 704x704 分辨率下训练	A-1k
doohickey/doohickey-mega/v2-3000steps.ckpt	与上一个模型类似，但效果稍差	A-1k + 约 1k 来自 LAION-2b-En-Aesthetic 且分辨率 >=768x768 的样本
doohickey/doohickey-mega/v3-3000.ckpt	使用了新的 CLIP 模型 (laion/CLIP-ViT-L-14-laion2B-s32B-b82K)（该 CLIP 模型也进行了 3000 步的微调），此后的模型在 640x640 到 768x768 的不同宽高比下进行训练（例如 768x640 或 704x768）	A-1k + E-10k
doohickey/doohickey-mega/v3-6000.ckpt	在 v3-3000.ckpt 的基础上再训练 3000 步，对手部的生成效果更好！（仅对 UNet 进行微调，以 50% 的概率添加了随机水平翻转操作）	A-1k
doohickey/doohickey-mega/v3-7000.ckpt	上一个模型的延续，原以为在 3000 步后 Colab 会崩溃，但它继续运行了一段时间，每 1000 步保存一次检查点	A-1k
doohickey/doohickey-mega/v3-8000.ckpt	基于 v3-6000 再训练 2000 步	A-1k

当前 diffusers 加载的模型是 doohickey/doohickey-mega/v3-8000.ckpt。

数据集

名称	描述
A-1K	1000 张抓取的图像，使用 BLIP 进行字幕标注（美学效果更精细）
E-10k	10000 张抓取的图像，使用 BLIP 进行字幕标注（美学效果较粗糙）

📄 许可证

本模型开放访问，所有人均可使用，遵循 CreativeML OpenRAIL-M 许可证，该许可证进一步规定了权利和使用方式。

CreativeML OpenRAIL 许可证规定：

不得使用该模型故意生成或分享非法或有害的输出或内容。
作者对您生成的输出不主张任何权利，您可以自由使用这些输出，并对其使用负责，且使用不得违反许可证中的规定。
您可以重新分发模型权重，并将模型用于商业用途和/或作为服务使用。如果这样做，请务必包含与许可证中相同的使用限制，并向所有用户分享 CreativeML OpenRAIL-M 许可证的副本（请完整、仔细地阅读许可证）。

请仔细阅读完整的许可证：https://huggingface.co/spaces/CompVis/stable-diffusion-license