库名称:transformers
许可证:cc-by-nc-4.0
标签:
- clip
- safeclip
- 视觉与语言
- 文本到图像
- 图像到文本
- 生成
- 检索
- 安全性
- 不适宜工作内容
模型卡片:Safe-CLIP
Safe-CLIP,在论文Safe-CLIP: 从视觉与语言模型中移除不适宜工作内容概念中提出,是一种增强的视觉与语言模型,旨在降低AI应用中不适宜工作内容(NSFW)带来的风险。
基于CLIP模型,Safe-CLIP通过微调来服务于语言与视觉概念之间的关联,确保在文本到图像和图像到文本的检索与生成任务中输出更安全的结果。
NSFW定义
在我们的工作中,参考了这篇论文的启发,我们将NSFW定义为一组有限且固定的概念,这些概念被认为是不恰当、冒犯性或对个体有害的。这些概念分为七类:仇恨、骚扰、暴力、自残、性、令人震惊和非法活动。
与Transformers一起使用
以下是使用Transformers的代码片段:
>>> from transformers import CLIPModel
>>> model_id = "aimagelab/safeclip_vit-h_14"
>>> model = CLIPModel.from_pretrained(model_id)
模型详情
Safe-CLIP是CLIP模型的微调版本。模型的微调通过ViSU(视觉安全与非安全)数据集完成,该数据集在同一篇论文中提出。
ViSU包含四元组元素:安全与NSFW句子对及其对应的安全与NSFW图像。您可以在HuggingFace的ViSU-Text页面上找到ViSU数据集的文本部分公开版本。由于包含极端不恰当的图像,我们决定不发布数据集的视觉部分。这些图像可能对个体造成伤害和困扰,因此发布这部分数据集是不负责任的,违背了确保AI技术安全与伦理使用的原则。最终模型将不恰当内容重定向到嵌入空间的安全区域,同时保留安全嵌入的完整性。
变体 Safe-CLIP提供四个版本,以提高与一些最流行的视觉与语言模型的兼容性,这些模型用于图像到文本(I2T)和文本到图像(T2I)生成任务。更多细节见下表。
|
兼容StableDiffusion |
兼容LLaVA |
safe-CLIP ViT-L-14 |
1.4 |
llama-2-13b-chat-lightning-preview |
safe-CLIP ViT-L-14-336px |
- |
1.5 - 1.6 |
safe-CLIP ViT-H-14 |
- |
- |
safe-CLIP SD 2.0 |
2.0 |
- |
模型发布日期 2024年7月9日。
如需了解更多关于模型、训练细节、数据集和评估的信息,请参考论文。
您还可以在论文的代码仓库中找到下游任务的示例代码。
应用场景
Safe-CLIP可用于多种对安全性和适当性要求较高的应用场景,包括跨模态检索、文本到图像和图像到文本生成。它能与预训练的生成模型无缝协作,在不影响语义内容质量的前提下提供更安全的替代方案。
下游使用
更多示例代码请见Safe-CLIP的官方代码仓库。
零样本分类示例
>>> from transformers import CLIPModel, CLIPProcessor
>>> from PIL import Image
>>> model_id = "aimagelab/safeclip_vit-h_14"
>>> model = CLIPModel.from_pretrained(model_id)
>>> processor = CLIPProcessor.from_pretrained("laion/CLIP-ViT-H-14-laion2B-s32B-b79K")
>>> url = "http://images.cocodataset.org/val2017/000000039769.jpg"
>>> image = Image.open(requests.get(url, stream=True).raw)
>>> inputs = processor(text=["一张猫的照片", "一张狗的照片"], images=image, return_tensors="pt", padding=True)
>>> outputs = clip(**inputs)
>>> logits_per_image = outputs.logits_per_image
>>> probs = logits_per_image.softmax(dim=1)
引用
请使用以下BibTeX引用:
@article{poppi2024removing,
title={{Safe-CLIP: Removing NSFW Concepts from Vision-and-Language Models}},
author={Poppi, Samuele and Poppi, Tobia and Cocchi, Federico and Cornia, Marcella and Baraldi, Lorenzo and Cucchiara, Rita},
journal={arXiv preprint arXiv:2311.16254},
year={2024}
}