语言: 中文
许可证: creativeml-openrail-m
标签:
-
stable-diffusion
-
stable-diffusion-diffusers
-
text-to-image
-
zh
-
中文
-
多语言
-
英语(En)
-
中文(Zh)
-
西班牙语(Es)
-
法语(Fr)
-
俄语(Ru)
-
日语(Ja)
-
韩语(Ko)
-
阿拉伯语(Ar)
-
意大利语(It)
推理: false
额外授权提示: |-
获取此模型前的最后一步。
该模型为开放访问,遵循CreativeML OpenRAIL-M许可证,进一步明确了权利和使用条款。
CreativeML OpenRAIL许可证规定:
- 禁止利用模型故意生成或传播非法或有害内容
- BAAI对用户生成内容不主张任何权利,使用者需自行负责内容合规性
- 允许商用及服务化使用,但须包含相同使用限制条款并向所有用户提供许可证副本
完整许可证请查阅: https://huggingface.co/spaces/CompVis/stable-diffusion-license
点击下方"访问仓库"即表示同意向模型作者共享联系信息(邮箱及用户名)。
额外授权字段:
我已阅读并同意许可条款: 复选框
AltCLIP-m9
支持英语(En)、中文(Zh)、西班牙语(Es)、法语(Fr)、俄语(Ru)、日语(Ja)、韩语(Ko)、阿拉伯语(Ar)及意大利语(It)九种语言。
名称 |
任务 |
语言 |
模型 |
代码库 |
AltCLIP-m9 |
图文匹配 |
多语言 |
CLIP架构 |
FlagAI |
核心创新
我们提出了一种高效训练多语言CLIP模型的方法。AltCLIP-m9的训练数据来源于悟道数据集和LAION。
该模型为AltDiffusion-m9多语言文生图模型提供支持。完整代码已开源至FlagAI,模型权重发布于ModelHub,同时提供微调/推理/验证脚本。
训练流程
采用两阶段训练:
- 平行知识蒸馏:利用海量平行语料文本进行蒸馏(相比图文对更易获取)
- 多模态对比学习:使用600万条中英图文对使文本编码器适配图像编码器
性能表现

生成效果
基于AltCLIP开发的AltDiffusion模型生成效果:

快速调用
请从FlagAI项目获取最新代码:
from PIL import Image
import requests
from modeling_altclip import AltCLIP
from processing_altclip import AltCLIPProcessor
model = AltCLIP.from_pretrained("BAAI/AltCLIP-m9")
processor = AltCLIPProcessor.from_pretrained("BAAI/AltCLIP-m9")
url = "http://images.cocodataset.org/val2017/000000039769.jpg"
image = Image.open(requests.get(url, stream=True).raw)
inputs = processor(text=["猫的照片", "狗的照片"], images=image, return_tensors="pt", padding=True)
outputs = model(**inputs)
logits_per_image = outputs.logits_per_image
probs = logits_per_image.softmax(dim=1)
文献引用
若该工作对您有帮助,请引用我们的技术报告:
@article{altclip2022,
title={AltCLIP: Altering the Language Encoder in CLIP for Extended Language Capabilities},
author={Chen, Zhongzhi and Liu, Guang and Zhang, Bo-Wen and Ye, Fulong and Yang, Qinghong and Wu, Ledell},
journal={arXiv preprint arXiv:2211.06679},
year={2022}
}