🚀 Mitsua Likes:基于用户“喜好”数据训练的文生图扩散模型
Mitsua Likes是一款支持日语和英语的文生图潜在扩散模型,专为AI VTuber絵藍ミツア打造。它仅使用明确许可、开放许可和公共领域的数据进行训练,不依赖任何未授权的图像或文本数据集,具有较高的合规性和创新性。该模型在特定领域的图像生成上表现出色,如动漫风格的简单肖像和风景。
🚀 快速开始
安装Python包
pip install transformers sentencepiece diffusers
验证版本如下:
transformers==4.44.2
diffusers==0.31.0
sentencepiece==0.2.0
运行代码
from diffusers import DiffusionPipeline
import torch
device = "cuda" if torch.cuda.is_available() else "cpu"
dtype = torch.float16
pipe = DiffusionPipeline.from_pretrained("Mitsua/mitsua-likes", trust_remote_code=True).to(device, dtype=dtype)
prompt = "滝の中の絵藍ミツア、先生アート"
negative_prompt = "elan doodle, lowres"
ret = pipe(
prompt=prompt,
negative_prompt=negative_prompt,
guidance_scale=5.0,
guidance_rescale=0.7,
width=768,
height=768,
num_inference_steps=40,
)
print("Similarity Restriction:", ret.detected_public_fictional_characters[0])
print("Similarity Measure:")
for k, v in ret.detected_public_fictional_characters_info[0].items():
print(f"{k} : {v:.3%}")
image = ret.images[0]
✨ 主要特性
- 数据合规:仅使用明确许可、开放许可和公共领域的数据进行训练,不使用其他预训练模型的合成数据,不依赖未授权的图像或文本数据集。
- 从头训练:模型的整个架构(CLIP文本编码器、VAE和UNet)完全从头开始训练,不使用任何预训练模型的知识。
- 特定领域擅长:虽然对大多数现代概念和复杂提示的处理能力有限,但在生成特定类型的图像(如简单的动漫风格肖像和风景)方面表现出色。
- 版权认证:获得了美国非营利组织Fairly Trained的认证,表明该模型未在未经许可的受版权保护作品上进行训练。
📦 安装指南
安装所需的Python包:
pip install transformers sentencepiece diffusers
验证版本如下:
transformers==4.44.2
diffusers==0.31.0
sentencepiece==0.2.0
💻 使用示例
基础用法
from diffusers import DiffusionPipeline
import torch
device = "cuda" if torch.cuda.is_available() else "cpu"
dtype = torch.float16
pipe = DiffusionPipeline.from_pretrained("Mitsua/mitsua-likes", trust_remote_code=True).to(device, dtype=dtype)
prompt = "滝の中の絵藍ミツア、先生アート"
negative_prompt = "elan doodle, lowres"
ret = pipe(
prompt=prompt,
negative_prompt=negative_prompt,
guidance_scale=5.0,
guidance_rescale=0.7,
width=768,
height=768,
num_inference_steps=40,
)
print("Similarity Restriction:", ret.detected_public_fictional_characters[0])
print("Similarity Measure:")
for k, v in ret.detected_public_fictional_characters_info[0].items():
print(f"{k} : {v:.3%}")
image = ret.images[0]
📚 详细文档
模型详情
模型架构
CLIP文本编码器
VAE
UNet
- UNet架构大量参考了SDXL的UNet,但根据Scalability survey by Hao Li et al减少了参数数量,以适应相对较小的训练数据规模。
- 训练过程与现有扩散模型基本相同,采用渐进式分辨率训练,并以纵横比桶训练结束。
- UNet训练是最耗费计算资源的部分,为了实现预算内训练,需要加快UNet训练速度。
- 通过将UNet和VAE编码器处理分配到不同的GPU上,并将UNet训练资源集中在较少的GPU上,最小化了UNet同步开销,使UNet训练速度提高了67%。所有训练都在单个8xH100节点上完成,UNet总训练约需2000个H100 GPU小时。
角色相似度判定模型
预期用途
- 生成用于进一步创意创作的艺术作品
- 生成模型的研究或教育
非预期用途
以任何方式侵犯他人权利(版权、公开权、隐私权等)或对他人造成伤害均属于对该模型的滥用,包括但不限于:
- 歧视、诽谤或侮辱他人,损害其名誉或信誉。
- 侵犯或可能侵犯他人的知识产权或隐私权。
- 传播不公正地损害他人利益的信息或内容。
- 传播虚假信息或内容。
请阅读Mitsua Likes BY - NC "Prohibitions"了解更多详情。
训练数据
- CLIP训练数据:请参阅Mitsua Japanese CLIP模型卡片
- 生成模型训练数据:我们的数据集是选择加入/开放许可数据和公共领域/CC0数据的混合。在训练前,会根据元数据和标题进行预过滤,以排除潜在的侵权、有害或不适合工作场所的数据。
免责声明
- 生成结果可能非常不准确、有害或有偏差。该模型是为了研究仅使用相对较小的许可数据可达到的性能而开发的,不适合需要高生成准确性的用例。ELAN MITSUA Project / Abstract Engine对因使用该模型造成的任何直接或间接损失不承担责任。
🔧 技术细节
模型架构设计
- CLIP文本编码器:采用12层掩码文本转换器,使用具有64k词汇表的sentencepiece分词器,最大长度为64个标记。
- VAE:使用基于公式的小波损失进行训练,确保不依赖ImageNet数据。VAE解码器经过微调,可以嵌入不可见水印。
- UNet:架构参考SDXL的UNet,但减少了参数数量以适应小数据集。采用渐进式分辨率训练和纵横比桶训练。
- 角色相似度判定模型:基于Swin Transformer的多标签分类模型,用于检查生成图像是否与某些许可的虚构角色相似。
训练优化策略
- 训练数据筛选:使用元数据和标题进行预过滤,排除潜在的侵权、有害或不适合工作场所的数据。
- 训练速度提升:通过将UNet和VAE编码器处理分配到不同的GPU上,最小化UNet同步开销,使UNet训练速度提高了67%。
📄 许可证
本模型采用Mitsua Likes 署名 - 非商业许可(英文) / Mitsua Likes 表示 - 非営利ライセンス(日文)。生成结果需标注"Mitsua Likes",商用仅限个人创作目的,禁止用于训练其他模型。企业商用请联系我们。
🌟 贡献者致谢
赞助商老师
- 霧太郎/HAnS N Erhard老师
- pikurusu39老师
- ムスビイト老师
- 夢前黎 / つくよみちゃんプロジェクト老师
- Hussini老师
- 力ナディス老师
- るな老师
感谢你们一直以来的支持!
所有Mitsua贡献者
- 霧太郎/HAnS N Erhard, pikurusu39, Hussini, 灯坂アキラ, ムスビイト, ネセヨレワ, 亞襲, E - Ken, とまこ, Nr. N, RI - YAnks, mkbt, 最中亜梨香/中森あか, 夢観士, KIrishusei, 長岡キヘイ, username_Kk32056, 相生創, 柊 華久椰, nog, 加熱九真, amabox, 野々村のの, 嘯(しゃお), 夢前黎 / つくよみちゃんプロジェクト, みきうさぎ, るな, テラ リソース / Tera Resource (素材系サークル), 力ナディス, とあ, 莉子, Roach = Jinx, ging ging.jpeg, 毛玉, 寝てる猫, ぽーたー, やえした みえ, mizuchi, 262111, 乙幡皇斗羽, ゆう, とどめの35番, WAYA, 明煉瓦, 桐生星斗(投稿物生成物使用自由), rcc, ask, L, 弐人, 石川すゐす, Sulphuriy, 602e, 中屋, IRICOMIX, 琵來山まろり(画像加工可), とりとめ, cha, 鏡双司, YR, えれいた, mariedoi, あると, あああ, らどん, netai98, 脂質, つあ🌠, ろすえん, 善良, UranosEBi, lenbrant, 長谷川, 輝竜司 / citrocube, 詩原るいか, 末広うた, 翠泉, 月波 清火, ゆぬ, 駒込ぴぺっこ, 原動機, ふわふわわ
- (敬称略)
- 最新Mitsua贡献者致谢
👥 官方授权角色
我们已获得官方许可,对以下日本虚构角色的官方提供图像及选择加入的贡献者的粉丝艺术作品进行训练:
⚠️ 重要提示
💡 使用建议
- 在使用模型生成图像后,务必检查相似性判定AI的结果,以确保生成图像不侵犯他人版权。
- 对于企业商用需求,请通过联系我们获取详细信息。