标签:
- 视觉
小部件:
- 图片示例: https://huggingface.co/datasets/mishig/sample_images/resolve/main/cat-dog-music.png
候选标签: 演奏音乐, 进行运动
示例标题: 猫与狗
模型卡片: CLIP
免责声明: 本模型卡片修改自CLIP官方仓库,原文可在此处查看。
模型详情
CLIP模型由OpenAI研究人员开发,旨在探究计算机视觉任务中的鲁棒性因素。该模型同时被用于测试模型在零样本情况下对任意图像分类任务的泛化能力。其开发初衷并非用于通用模型部署——若要部署类似CLIP的模型,研究人员需首先仔细考察其在特定应用场景中的能力表现。
发布日期
2021年1月
模型类型
该模型采用ViT-B/32 Transformer架构作为图像编码器,并使用掩码自注意力Transformer作为文本编码器。这些编码器通过对比损失函数训练,以最大化(图像,文本)对的相似度。
原始实现包含两个变体:一个使用ResNet图像编码器,另一个使用Vision Transformer。本仓库提供Vision Transformer版本。
相关文档
Transformers调用示例
from PIL import Image
import requests
from transformers import CLIPProcessor, CLIPModel
model = CLIPModel.from_pretrained("openai/clip-vit-base-patch32")
processor = CLIPProcessor.from_pretrained("openai/clip-vit-base-patch32")
url = "http://images.cocodataset.org/val2017/000000039769.jpg"
image = Image.open(requests.get(url, stream=True).raw)
inputs = processor(text=["一张猫的照片", "一张狗的照片"], images=image, return_tensors="pt", padding=True)
outputs = model(**inputs)
logits_per_image = outputs.logits_per_image # 图像-文本相似度分数
probs = logits_per_image.softmax(dim=1) # 可通过softmax获取标签概率
模型用途
设计用途
本模型作为研究产出供学术社区使用。我们希望该模型能帮助研究者更好地理解和探索零样本、任意图像分类任务。同时也期待其能用于跨学科研究,探讨此类模型的潜在影响——CLIP论文中包含关于下游影响的讨论,为此类分析提供了范例。
主要目标用户
主要目标用户为人工智能研究人员。
我们设想该模型将主要用于帮助研究者理解计算机视觉模型的鲁棒性、泛化能力以及其他特性、偏差和限制。
非适用场景
目前任何实际部署场景——无论商用与否——均不属于适用范围。非部署场景(如受限环境中的图像搜索)除非经过特定固定分类体系的充分领域测试,否则同样不建议使用。这是因为我们的安全评估表明,鉴于CLIP在不同分类体系下表现的差异性,未经测试的模型部署可能造成潜在危害。
某些涉及监控和人脸识别的应用场景永远属于非适用范围,无论模型性能如何。鉴于当前缺乏确保公平使用的测试规范和检查机制,在这些领域应用人工智能可能为时过早。
由于模型仅针对英语进行训练和评估,其使用应限于英语应用场景。
训练数据
模型训练使用公开可用的图像-标题数据。数据来源包括对部分网站的爬取以及YFCC100M等常用现有图像数据集。大部分数据来自互联网爬取,这意味着数据更倾向于代表互联网使用率较高的人群和社会,这些群体通常来自较发达国家,且以年轻男性用户为主。
数据使命声明
构建该数据集的目标是测试计算机视觉任务的鲁棒性和泛化性。因此重点是从不同公开网络数据源收集大量数据。数据收集基本采用非干预方式,但我们仅爬取禁止极端暴力和成人内容的网站,并允许过滤此类内容。我们无意将该数据集作为任何商业或部署模型的基础,也不会公开此数据集。
性能与局限
性能表现
我们已在OCR、纹理识别到细粒度分类等多种计算机视觉数据集上评估CLIP性能。论文描述了模型在以下数据集的表现:
(此处保留原始数据集英文名称列表)
局限性
CLIP及其分析存在若干局限:目前在细粒度分类和物体计数等任务上表现欠佳;在公平性和偏差方面存在问题(论文及下节将简要讨论);测试方法存在重要限制——许多情况下使用线性探针评估性能,而有证据表明线性探针可能低估模型性能。
偏差与公平性
我们发现CLIP的表现及特定偏差显著依赖于类别设计的选择。通过将Fairface中的人物图像分类为犯罪相关和非人类动物类别,测试了CLIP的贬损风险,发现种族和性别方面存在显著差异。这些差异会随类别构建方式而变化(详见论文"更广泛影响"章节)。
我们还使用Fairface数据集测试了CLIP在性别、种族和年龄分类上的表现(采用该数据集原有种族分类标准),以评估不同人口统计组的性能差异。发现性别分类准确率>96%,其中"中东"最高(98.4%),"白人"最低(96.5%);种族分类平均约93%;年龄分类约63%。这些评估仅用于测试模型跨人群表现及揭示潜在风险,并非认可此类任务。
反馈建议
问题反馈渠道
请使用此谷歌表单