许可证:其他
许可证名称:mitsua-likes-by-nc
许可证链接:LICENSE
数据集:
- Mitsua/vrm-color-concept-550k
- Mitsua/art-museums-pd-440k
- Mitsua/safe-commons-pd-3m
语言:
- 日语
- 英语
任务标签:文本到图像
标签:
- 文本到图像
- 图像生成
- mitsua-likes
- 法律
推理:true
额外授权提示:>-
点击“同意”即表示您同意Mitsua Likes署名-非商业性许可证的条款,
并认可Abstract Engine的隐私政策。
"同意"をクリックすることによって、Mitsua Likes表示-非営利ライセンスの規約を遵守し、
Abstract Engineのプライバシーポリシーに同意するものとします。
额外授权字段:
姓名/名前:文本
电子邮件:文本
组织或所属/組織または所属:文本
您打算如何使用该模型?/モデルの利用目的:
类型:选择
选项:
- 研究
- 个人使用
- 其他
我接受Mitsua Likes BY-NC许可证的条款,并认可我提供的信息将根据Abstract Engine的隐私政策进行收集和存储/日本語:Mitsua Likes表示-非営利ライセンスの規約を遵守し、Abstract Engineのプライバシーポリシーに従って提供した情報が収集及び保存されることに同意します:复选框
Mitsua Likes:基于用户“喜欢”训练的文本到图像扩散模型
Mitsua Likes模型已获得公平训练认证。

概述
Mitsua Likes是一款基于“共创艺术”理念开发的日语/英语文本到图像潜在扩散模型,由AI VTuber绘蓝Mitsua作为基础模型使用,仅使用明确授权许可的数据、开放许可及公共领域数据进行训练。该模型不包含其他AI模型生成的合成数据(图像/文本)。整个模型架构(CLIP文本编码器、VAE、UNet)均为从零开始训练,不依赖任何预训练模型知识。这意味着该模型直接或间接均未使用未经授权爬取的现有图像或文本数据集。Mitsua Likes作为“未使用受版权保护作品进行无授权训练的AI模型”,已获得美国非营利组织Fairly Trained的认证。
Mitsua Likes对大多数现代概念表现欠佳,也难以理解复杂提示,但由于其训练数据特性,在生成动漫风格简单肖像和风景画等特定领域表现出色。
可训练模型候补名单
本仓库的VAE编码器权重已初始化以防止滥用。因此,基于图像的微调或图像到图像转换在技术上不可行,同时也被许可条款禁止。非营利研究或个人创作目的可通过以下Google表单申请包含VAE编码器的完整模型访问权限。训练数据需为使用者自有版权或获得明确授权的数据,且数据概要将被公开。其他详细条件请参阅Google表单内容。
Mitsua Likes候补名单注册
模型详情
使用方式
- 安装Python包
pip install transformers sentencepiece diffusers
已验证版本:
transformers==4.44.2
diffusers==0.31.0
sentencepiece==0.2.0
- 运行代码
from diffusers import DiffusionPipeline
import torch
device = "cuda" if torch.cuda.is_available() else "cpu"
dtype = torch.float16
pipe = DiffusionPipeline.from_pretrained("Mitsua/mitsua-likes", trust_remote_code=True).to(device, dtype=dtype)
prompt = "瀑布中的绘蓝Mitsua,老师艺术风格"
negative_prompt = "elan doodle, lowres"
ret = pipe(
prompt=prompt,
negative_prompt=negative_prompt,
guidance_scale=5.0,
guidance_rescale=0.7,
width=768,
height=768,
num_inference_steps=40,
)
print("相似性限制:", ret.detected_public_fictional_characters[0])
print("相似性度量:")
for k, v in ret.detected_public_fictional_characters_info[0].items():
print(f"{k} : {v:.3%}")
image = ret.images[0]
模型架构
CLIP文本编码器
- 12层掩码文本转换器
- 分词器:64k词表的sentencepiece分词器
- 最大长度:64个token
- 该文本编码器来自Mitsua日语CLIP
VAE
- VAE采用全公式化小波损失训练,确保不依赖ImageNet(注:LPIPS感知损失基于ImageNet)
- VAE解码器经过微调可嵌入隐形水印,参考The Stable Signature论文但采用自主实现
- 潜在通道数:8(在细节与压缩效率间取得更好平衡)
- 注:本仓库VAE编码器权重已初始化以防止未经授权的微调。如需VAE编码器权重,请通过候补名单申请
- 总训练步数:28万步(批量大小240,分辨率256x256,约800 RTX4090小时)
UNet
- 架构参考SDXL的UNet,但根据Hao Li等的可扩展性研究减少参数量以适应较小训练数据集
- 变换器深度从[0,2,10]缩减至约[0,2,3]
- 输入文本编码器减至1个
- 输入通道宽度增至384
- 潜在通道数增至8
- 移除中间块的交叉注意力层
- 最终参数量约12亿(SDXL UNet的一半)
- 采用渐进分辨率训练(256x256→512x512→768x768+长宽比分桶)
- 总训练步数:55万步(批量大小216~1920)
- 采用Min-SNR公式和Immiscible Diffusion技术加速收敛
- 通过分离UNet和VAE编码器到不同GPU,减少UNet同步开销,训练速度提升67%
- 总训练耗时:约2000 H100 GPU小时(单节点8xH100)
角色相似性判定模型
预期用途
非适用范围
任何侵犯他人权利(版权、肖像权、隐私权等)或造成损害的行为均属滥用,包括但不限于:
- 歧视、诽谤或侮辱他人
- 侵犯知识产权或隐私
- 传播损害他人利益的内容
- 传播虚假信息
详见Mitsua Likes BY-NC"禁止条款"
局限性
(因训练数据多样性不足导致)
- 难以生成照片级人物
- 难以理解长自然语言提示
- 难以生成复杂构图
- 对现代概念不熟悉
贡献者名单
主要赞助者
- 雾太郎/HAnS N Erhard
- pikurusu39
- ムスビイト
- 夢前黎/月读酱项目
- Hussini
- 力ナディス
- るな
全体贡献者
(详见最新名单)
官方授权角色
已获得以下日本虚拟角色的官方训练授权:
训练数据
免责声明
生成结果可能存在不准确、有害或偏见内容。本模型仅为研究小规模授权数据性能而开发,不适用于高精度生成场景。绘蓝Mitsua项目及Abstract Engine不对使用本模型造成的直接或间接损失承担责任。