许可证: MIT
语言:
- 英语
任务标签: 零样本图像分类
标签:
- 视觉
- CLIP
BRAHMAI-CLIP-v0.1
模型类型:
基础模型采用ViT-L/14 Transformer架构作为图像编码器,掩码自注意力Transformer作为文本编码器。这些编码器通过对比损失进行训练,以最大化图像和文本对之间的相似性。
原始实现提供两种变体:一种使用ResNet图像编码器,另一种使用Vision Transformer。本仓库包含Vision Transformer变体。
日期: 2024年6月
代码示例:
from PIL import Image
import requests
from transformers import CLIPProcessor, CLIPModel
model_id = "brahmairesearch/brahmai-clip-v0.1"
model = CLIPModel.from_pretrained(model_id)
processor = CLIPProcessor.from_pretrained(model_id)
image_url = "http://images.cocodataset.org/val2017/000000039769.jpg"
image = Image.open(requests.get(image_url, stream=True).raw)
descriptions = ["一张猫的照片", "一张狗的照片"]
inputs = processor(text=descriptions, images=image, return_tensors="pt", padding=True)
outputs = model(**inputs)
logits_per_image = outputs.logits_per_image
probs = logits_per_image.softmax(dim=1)
print(probs)
模型用途
预期用途
该模型设计为学术和研究社区的研究工具,旨在帮助研究者探索零样本任意图像分类,并研究此类模型的潜在跨学科影响。CLIP论文通过讨论潜在下游效应提供了这类分析的范例。
主要目标用户:
我们期望研究人员通过该模型深入理解计算机视觉模型的鲁棒性、泛化能力、性能、偏见和局限性。
非适用场景
-
实际部署场景: 目前任何形式的模型部署(无论商业与否)均不适用。非部署用途(如受控环境中的图像搜索)也不建议,除非已针对特定固定分类体系进行充分领域内测试。此警告源于CLIP在不同分类体系下性能的波动性(详见安全评估)。
-
监控与人脸识别: 涉及监控和人脸识别的场景永远不适用。鉴于当前缺乏测试规范和公平性验证,在这些领域仓促应用AI可能造成危害。
-
非英语语言: 该模型未针对英语以外的语言进行专门训练或评估,因此应仅限于英语应用场景。
局限性
CLIP及其分析存在若干局限。当前模型在细粒度分类和物体计数等任务上表现欠佳。此外,CLIP涉及公平性和偏见问题(论文及下一节将简要讨论)。测试方法的重要局限是使用线性探针评估CLIP性能,而有证据表明线性探针可能低估模型表现。
偏见与公平性
CLIP的性能和特定偏见会因类别设计及包含/排除类别的选择产生显著差异。我们通过将Fairface数据集中的人物图像分类为犯罪相关和非人类动物类别,评估了某些贬损风险。研究发现种族和性别存在显著差异,且这些差异会随类别构建方式变化。具体发现详见论文"更广泛影响"部分。
我们还使用Fairface数据集评估了CLIP在性别、种族和年龄分类上的表现。性别分类准确率在所有种族中均超过96%,其中"中东"最高(98.4%),"白人"最低(96.5%)。种族分类平均准确率约93%,年龄分类约63%。这些评估旨在衡量模型在不同人口统计中的表现并揭示潜在风险,而非支持或推广此类任务。