标签:
- 视觉
小部件:
- 图片源: https://huggingface.co/datasets/mishig/sample_images/resolve/main/cat-dog-music.png
候选标签: 演奏音乐, 进行运动
示例标题: 猫与狗
模型卡片: CLIP
免责声明: 此模型卡片取自并修改自官方CLIP仓库,可在此处找到。
模型详情
CLIP模型由OpenAI研究人员开发,旨在研究计算机视觉任务中鲁棒性的影响因素。该模型还被用于测试模型在零样本情况下对任意图像分类任务的泛化能力。它并非为通用模型部署而开发——要部署类似CLIP的模型,研究人员需要首先仔细研究其能力与特定部署环境的关系。
模型日期
2021年1月
模型类型
基础模型使用ViT-L/14 Transformer架构作为图像编码器,并使用掩码自注意力Transformer作为文本编码器。这些编码器通过对比损失训练以最大化(图像,文本)对的相似性。
原始实现有两种变体:一种使用ResNet图像编码器,另一种使用Vision Transformer。本仓库包含Vision Transformer变体。
文档
与Transformers一起使用
from PIL import Image
import requests
from transformers import CLIPProcessor, CLIPModel
model = CLIPModel.from_pretrained("openai/clip-vit-large-patch14")
processor = CLIPProcessor.from_pretrained("openai/clip-vit-large-patch14")
url = "http://images.cocodataset.org/val2017/000000039769.jpg"
image = Image.open(requests.get(url, stream=True).raw)
inputs = processor(text=["一张猫的照片", "一张狗的照片"], images=image, return_tensors="pt", padding=True)
outputs = model(**inputs)
logits_per_image = outputs.logits_per_image
probs = logits_per_image.softmax(dim=1)
模型用途
预期用途
该模型旨在作为研究社区的研究输出。我们希望该模型能帮助研究人员更好地理解和探索零样本、任意图像分类。我们也希望它可以用于跨学科研究此类模型的潜在影响——CLIP论文中包含了关于潜在下游影响的讨论,为此类分析提供了示例。
主要预期用途
这些模型的主要预期用户是AI研究人员。
我们主要设想该模型将被研究人员用于更好地理解计算机视觉模型的鲁棒性、泛化性以及其他能力、偏见和限制。
超出范围的用例
任何模型的部署用例——无论是商业还是非商业——目前都超出范围。非部署用例,如受限环境中的图像搜索,除非对具有特定固定分类法的模型进行了彻底的领域内测试,否则也不推荐。这是因为我们的安全评估表明,特别是考虑到CLIP在不同分类法中表现的变异性,特定任务的测试需求很高。这使得目前在任何用例中未经测试和不受限制地部署模型可能有害。
某些属于监控和人脸识别领域的用例无论模型性能如何始终超出范围。这是因为目前缺乏测试规范和确保公平使用的检查,在这些任务中使用人工智能可能为时过早。
由于该模型没有专门针对英语以外的其他语言进行训练或评估,其使用应限于英语用例。
数据
该模型在公开可用的图像-标题数据上进行训练。这是通过抓取少量网站和常用现有图像数据集(如YFCC100M的组合完成的。大部分数据来自我们对互联网的抓取。这意味着数据更能代表与互联网连接更紧密的人群和社会,这些人群往往偏向于更发达的国家和年轻男性用户。
数据使命声明
我们构建此数据集的目标是测试计算机视觉任务中的鲁棒性和泛化性。因此,重点是从不同的公开可用互联网数据源收集大量数据。数据的收集主要是非干预性的。然而,我们只抓取了那些有政策禁止过度暴力和成人内容并允许我们过滤此类内容的网站。我们不打算将此数据集用作任何商业或部署模型的基础,也不会发布该数据集。
性能与限制
性能
我们已经在广泛的基准测试中评估了CLIP的性能,涵盖了从OCR到纹理识别再到细粒度分类的各种计算机视觉数据集。论文描述了模型在以下数据集上的表现:
- Food101
- CIFAR10
- CIFAR100
- Birdsnap
- SUN397
- Stanford Cars
- FGVC Aircraft
- VOC2007
- DTD
- Oxford-IIIT Pet dataset
- Caltech101
- Flowers102
- MNIST
- SVHN
- IIIT5K
- Hateful Memes
- SST-2
- UCF101
- Kinetics700
- Country211
- CLEVR Counting
- KITTI Distance
- STL-10
- RareAct
- Flickr30
- MSCOCO
- ImageNet
- ImageNet-A
- ImageNet-R
- ImageNet Sketch
- ObjectNet (ImageNet Overlap)
- Youtube-BB
- ImageNet-Vid
限制
CLIP及其分析存在一些限制。CLIP目前在细粒度分类和计数等任务上表现不佳。CLIP在公平性和偏见方面也存在问题,我们在论文和下一节中简要讨论了这些问题。此外,我们测试CLIP的方法也有一个重要限制——在许多情况下,我们使用线性探针来评估CLIP的性能,有证据表明线性探针可能会低估模型性能。
偏见与公平
我们发现CLIP的表现——以及它表现出的特定偏见——可能在很大程度上取决于类别设计以及选择包含和排除的类别。我们通过将Fairface中的人物图像分类为犯罪相关和非人类动物类别,测试了CLIP某些贬损风险。我们发现种族和性别方面存在显著差异。此外,我们发现这些差异可能因类别的构建方式而变化。(详细信息见论文中的“更广泛影响”部分)。
我们还使用Fairface数据集测试了CLIP在性别、种族和年龄分类上的表现(我们默认使用Fairface数据集中构建的种族类别),以评估不同人口统计群体中的表现质量。我们发现性别分类的准确率在所有种族中均>96%,其中“中东”准确率最高(98.4%),“白人”最低(96.5%)。此外,CLIP在种族分类上的平均准确率约为93%,在年龄分类上约为63%。我们使用评估来测试性别、种族和年龄分类以及贬损危害,只是为了评估模型在不同人群中的表现并揭示潜在风险,而不是表明对这些任务的支持或热情。
反馈
关于模型的提问或评论发送至何处
请使用此Google表单