开源协议: mit
微件示例:
- 图片链接: >-
https://huggingface.co/datasets/mishig/sample_images/resolve/main/cat-dog-music.png
候选标签: 演奏音乐, 体育运动
示例标题: 猫与狗
库名称: open_clip
数据集:
- mlfoundations/datacomp_pools
管道标签: 零样本图像分类
CLIP ViT-L-14基于DataComp-1B训练的模型卡片
目录
- 模型详情
- 用途
- 训练详情
- 评估
- 致谢
- 引用
- 快速上手指南
模型详情
模型描述
该CLIP ViT-L/14模型使用DataComp-1B数据集(https://github.com/mlfoundations/datacomp)通过OpenCLIP框架(https://github.com/mlfoundations/open_clip)训练完成。
模型训练在stability.ai集群上完成。
用途
根据原始OpenAI CLIP模型卡片说明,本模型主要作为研究输出供学术社区使用。我们期望该模型能帮助研究者更好地理解和探索零样本任意图像分类任务,同时也希望它能用于跨学科研究此类模型的潜在影响。
OpenAI CLIP论文包含关于下游潜在影响的讨论,可作为此类分析的范例。此外,DataComp论文(https://arxiv.org/abs/2304.14108)特别针对训练数据集进行了补充讨论。
直接用途
零样本图像分类、图文检索等任务。
下游用途
图像分类等任务的微调、线性探针图像分类、图像生成引导与条件控制等。
非适用场景
根据OpenAI模型规范:
任何商业或非商业的部署使用目前均超出适用范围。除非在特定固定分类体系下进行了充分领域内测试,否则即使在受限环境中的图像搜索等非部署用例也不推荐。这是因为我们的安全评估表明,鉴于CLIP在不同分类体系中表现的差异性,任务特定测试尤为重要。因此在未经测试和无约束条件下部署模型可能造成潜在危害。
某些应用场景如监控和人脸识别无论模型性能如何都始终不适用。鉴于目前缺乏确保公平使用的测试规范和检查机制,在这些领域使用人工智能可能为时过早。
训练详情
训练数据
本模型使用DataComp-1B数据集(https://arxiv.org/abs/2304.14108)的14亿样本进行训练。
重要提示: 创建该数据集的初衷是促进大规模多模态模型训练及处理来自公开互联网的非精选大规模数据集的研究民主化。因此我们建议仅将数据集用于研究目的。请注意这个大规模数据集未经人工筛选,可能包含令人不适或不安的内容链接。请谨慎使用演示链接并自行承担风险。可以通过安全标签(使用我们构建的定制NSFW分类器)过滤样本来提取"安全"子集。虽然这能大幅降低接触有害内容的概率,但我们不能完全排除安全模式下仍存在有害内容的可能性。我们认为向广大研究社区开放数据集,有助于透明研究大规模模型的优势,以及使用封闭数据集时可能被忽视的缺陷和风险。虽然我们公开数据集,但不建议直接用于工业产品开发,因为关于此类大规模模型通用特性和安全性的基础研究仍在进行中。
训练流程
详见论文(https://arxiv.org/abs/2304.14108)。
评估
使用DataComp代码库和LAION CLIP基准测试在38个数据集上进行评估。
测试数据、因素与指标
测试数据
测试在包含38个数据集的测试套件上完成。详见论文(https://arxiv.org/abs/2304.14108)。
结果
该模型在ImageNet-1k上达到79.2%的零样本top-1准确率。更多细节和结果参见论文(https://arxiv.org/abs/2304.14108)。
致谢
感谢stability.ai提供训练本模型的计算资源。
引用
BibTeX格式:
DataComp
@article{datacomp,
title={DataComp: 寻找下一代多模态数据集},
author={Samir Yitzhak Gadre等},
journal={arXiv预印本 arXiv:2304.14108},
year={2023}
}
OpenAI CLIP论文
@inproceedings{Radford2021LearningTV,
title={从自然语言监督中学习可迁移的视觉模型},
author={Alec Radford等},
booktitle={ICML},
year={2021}
}
OpenCLIP软件
@software{ilharco_gabriel_2021_5143773,
author = {Gabriel Ilharco等},
title = {OpenCLIP},
year = 2021,
publisher = {Zenodo},
doi = {10.5281/zenodo.5143773}
}
快速上手指南
参见 https://github.com/mlfoundations/open_clip