语言:中文
许可证:creativeml-openrail-m
标签:
- 稳定扩散
- 稳定扩散-扩散器
- 文本到图像
- 多语言
- 英语(En)
- 中文(Zh)
- 西班牙语(Es)
- 法语(Fr)
- 俄语(Ru)
- 日语(Ja)
- 韩语(Ko)
- 阿拉伯语(Ar)
- 意大利语(It)
- 扩散器
额外授权提示:
该模型为开放访问,遵循CreativeML OpenRAIL-M许可证,进一步规定了权利和使用条款。
CreativeML OpenRAIL许可证规定:
- 禁止利用模型故意生成或传播非法或有害内容
- 作者对生成内容不主张权利,用户可自由使用但需对使用负责,且不得违反许可条款
- 允许商业用途及模型权重再分发,但须包含相同使用限制并向所有用户提供许可证副本
完整许可证请查阅:https://huggingface.co/spaces/CompVis/stable-diffusion-license
额外授权标题:访问模型前请阅读许可证
AltDiffusion
名称 |
任务 |
语言支持 |
模型 |
Github |
AltDiffusion-m9 |
多模态 |
多语言 |
稳定扩散 |
FlagAI |
Gradio集成
我们提供基于Gradio的Web界面运行AltDiffusion-m9:

模型信息
我们基于Stable Diffusion框架,采用AltCLIP-m9多语言CLIP模型,使用悟道数据集和LAION数据进行训练。
本版本在多语言对齐方面表现卓越,是目前开源领域最强的多语言文本到图像模型,不仅完整保留了原版stable diffusion的核心能力,部分案例中甚至展现出更优的生成效果。
AltDiffusion-m9由多语言CLIP模型AltCLIP-m9提供支持,相关技术细节可参阅教程。
引用文献
若研究工作受益于AltCLIP-m9,请引用:
@article{altclip2022,
doi = {10.48550/ARXIV.2211.06679},
author = {Chen, Zhongzhi and Liu, Guang and Zhang, Bo-Wen and Ye, Fulong and Yang, Qinghong and Wu, Ledell},
title = {AltCLIP: Altering the Language Encoder in CLIP for Extended Language Capabilities},
publisher = {arXiv},
year = {2022}
}
模型权重
首次运行时会自动从HuggingFace下载以下权重:
模型名称 |
大小 |
描述 |
StableDiffusionSafetyChecker |
1.13G |
图像安全检查模块 |
AltDiffusion-m9 |
8.0G |
支持英/中/西/法/俄/日/韩/阿/意九种语言 |
AltCLIP-m9 |
3.22G |
对应九种语言的多语言CLIP模型 |
使用示例
🧨Diffusers示例
AltDiffusion-m9已集成至🧨Diffusers库!
我们提供Colab示例,文档详见此处。
以下示例使用DPM多步调度器,在V100显卡上约2秒可生成图像:
from diffusers import AltDiffusionPipeline, DPMSolverMultistepScheduler
import torch
pipe = AltDiffusionPipeline.from_pretrained("BAAI/AltDiffusion-m9", torch_dtype=torch.float16, revision="fp16")
pipe.scheduler = DPMSolverMultistepScheduler.from_config(pipe.scheduler.config)
image = pipe("黑暗精灵公主,非常详细,幻想,数字绘画", num_inference_steps=25).images[0]
image.save("alt.png")

Transformers示例
关键参数说明:
参数名 |
类型 |
说明 |
prompt |
str |
提示文本 |
n_samples |
int |
生成图像数量 |
ddim_step |
int |
去噪步数 |
scale |
float |
文本影响力系数(值越大提示词影响越强) |
H/W |
int |
图像高/宽 |
注意:推理需配备10G以上显存的GPU。
生成效果展示
多语言生成
同一提示词不同语言生成各异:

中英对齐能力
英文提示:"dark elf princess..."

中文提示:"黑暗精灵公主..."

中文特写
提示:"带墨镜的中国男孩肖像,8K高清"

长图生成
提示:"一只带着帽子的小狗"
原版SD生成:

本模型生成:

*注:长图生成技术由右脑科技(RightBrain AI)提供
模型架构
模块 |
参数量 |
AutoEncoder |
83.7M |
Unet |
865M |
AltCLIP-m9文本编码器 |
859M |
引用须知
若使用本模型,请引用:
@misc{altdiffusion2023,
title={AltDiffusion: A Multilingual Text-to-Image Diffusion Model},
author={Ye, Fulong and Liu, Guang and Wu, Xinya and Wu, Ledell},
year={2023},
eprint={2308.09991},
archivePrefix={arXiv}
}
许可证
本模型采用CreativeML Open RAIL-M许可证,禁止生成违法、有害、侵犯隐私、传播错误信息或针对弱势群体的内容。商业使用时须包含原始许可证限制条款。完整条款请参阅许可证文件。