标签:
- 视觉
小部件:
- 图片: https://huggingface.co/datasets/mishig/sample_images/resolve/main/cat-dog-music.png
候选标签: 演奏音乐, 进行运动
示例标题: 猫与狗
模型卡片: CLIP
免责声明: 本模型卡片修改自CLIP官方仓库,原文可在此处查看。
模型详情
CLIP模型由OpenAI研究人员开发,旨在探究计算机视觉任务中鲁棒性的影响因素。该模型同时被用于测试模型在零样本情况下对任意图像分类任务的泛化能力。其开发目的并非直接部署——要部署类似CLIP的模型,研究人员需首先仔细评估模型在特定应用场景下的能力表现。
发布日期
2021年1月
模型类型
基础模型采用ViT-B/16 Transformer架构作为图像编码器,并使用掩码自注意力Transformer作为文本编码器。这些编码器通过对比损失训练,以最大化(图像,文本)对的相似度。
原始实现包含两个变体:一个使用ResNet图像编码器,另一个使用Vision Transformer。本仓库提供Vision Transformer版本。
相关文档
Transformers调用示例
from PIL import Image
import requests
from transformers import CLIPProcessor, CLIPModel
model = CLIPModel.from_pretrained("openai/clip-vit-base-patch16")
processor = CLIPProcessor.from_pretrained("openai/clip-vit-base-patch16")
url = "http://images.cocodataset.org/val2017/000000039769.jpg"
image = Image.open(requests.get(url, stream=True).raw)
inputs = processor(text=["一张猫的照片", "一张狗的照片"], images=image, return_tensors="pt", padding=True)
outputs = model(**inputs)
logits_per_image = outputs.logits_per_image # 图像-文本相似度分数
probs = logits_per_image.softmax(dim=1) # 可通过softmax获取标签概率
模型用途
设计用途
本模型作为研究产出供学术社区使用。我们希望该模型能帮助研究者更好地理解和探索零样本、任意图像分类任务。同时也期待其能用于跨学科研究,探讨此类模型的潜在影响——CLIP论文中包含关于下游影响的讨论,为此类分析提供了范例。
主要目标用户
主要目标用户为人工智能研究人员。
我们预期该模型主要用于帮助研究者深入理解计算机视觉模型的鲁棒性、泛化能力以及其他特性、偏差和限制。
非适用场景
任何实际部署场景——无论商用与否——目前均不适用。非部署场景(如受限环境中的图像搜索)也需谨慎,除非已完成针对特定固定分类体系的充分领域测试。这是因为我们的安全评估表明,鉴于CLIP在不同分类体系下表现的差异性,未经测试的无约束部署可能造成潜在危害。
某些应用场景(如监控和人脸识别)无论模型性能如何均永远不适用。鉴于目前缺乏确保公平使用的测试规范和检查机制,在这些领域应用人工智能可能为时过早。
由于模型未针对英语以外的语言进行专门训练或评估,其使用应限于英语应用场景。
训练数据
模型训练使用公开可用的图像-标题数据。数据来源包括对部分网站的爬取以及YFCC100M等常用现有图像数据集。大部分数据来自互联网爬取,这意味着数据更倾向于代表互联网使用率较高的人群和社会,这些群体往往来自较发达国家,且以年轻男性用户为主。
数据使命声明
构建该数据集的目标是测试计算机视觉任务的鲁棒性和泛化性。因此,重点是从不同公开互联网数据源收集大量数据。数据收集基本采用非干预方式,但我们仅爬取禁止极端暴力和成人内容的网站,并进行了此类内容过滤。我们无意将该数据集作为任何商业或部署模型的基础,也不会公开此数据集。
性能与局限
性能表现
我们已在OCR到纹理识别再到细粒度分类等多种计算机视觉数据集上评估CLIP性能。论文描述了模型在以下数据集的表现:
- Food101
- CIFAR10
- CIFAR100
- Birdsnap
- SUN397
- Stanford Cars
- FGVC Aircraft
- VOC2007
- DTD
- Oxford-IIIT宠物数据集
- Caltech101
- Flowers102
- MNIST
- SVHN
- IIIT5K
- Hateful Memes
- SST-2
- UCF101
- Kinetics700
- Country211
- CLEVR计数
- KITTI距离
- STL-10
- RareAct
- Flickr30
- MSCOCO
- ImageNet
- ImageNet-A
- ImageNet-R
- ImageNet草图
- ObjectNet (ImageNet重叠)
- Youtube-BB
- ImageNet-Vid
局限性
CLIP及其分析存在若干局限。当前CLIP在细粒度分类和物体计数等任务上表现欠佳。公平性和偏见问题也在论文及下节简要讨论。此外,我们的测试方法存在重要限制——多数情况下使用线性探针评估CLIP性能,而有证据表明线性探针可能低估模型表现。
偏见与公平性
我们发现CLIP的表现及特定偏见很大程度上取决于类别设计的选择。通过将Fairface的人像分类为犯罪相关和非人类动物类别,测试了某些贬损风险。发现在种族和性别维度存在显著差异,且这些差异会随类别构建方式而变化(详见论文"更广泛影响"章节)。
我们还使用Fairface数据集测试了CLIP在性别、种族和年龄分类上的表现(默认采用该数据集的种族分类标准)。发现性别分类准确率>96%,其中"中东"最高(98.4%),"白人"最低(96.5%)。种族分类平均准确率约93%,年龄分类约63%。这些评估仅用于测试模型在不同人群中的表现并揭示潜在风险,绝非认可此类任务。
反馈
问题与意见反馈
请使用此Google表单