许可证: mit
小部件:
- 来源: >-
https://huggingface.co/datasets/mishig/sample_images/resolve/main/cat-dog-music.png
候选标签: 播放音乐, 进行运动
示例标题: 猫与狗
库名称: open_clip
数据集:
- mlfoundations/datacomp_pools
管道标签: 零样本图像分类
原始仓库 https://huggingface.co/laion/CLIP-ViT-L-14-DataComp.XL-s13B-b90K
新增 transformers 支持
from transformers import CLIPProcessor, CLIPModel
model = CLIPModel.from_pretrained("marcusinthesky/CLIP-ViT-L-14-DataComp.XL-s13B-b90K")
CLIP ViT-L-14 基于 DataComp-1B 训练的模型卡片
目录
- 模型详情
- 用途
- 训练详情
- 评估
- 致谢
- 引用
- 如何开始使用模型
模型详情
模型描述
这是一个基于 DataComp-1B (https://github.com/mlfoundations/datacomp) 使用 OpenCLIP (https://github.com/mlfoundations/open_clip) 训练的 CLIP ViT-L/14 模型。
模型训练在 stability.ai 集群上完成。
用途
根据原始 OpenAI CLIP 模型卡片,此模型旨在为研究社区提供研究输出。我们希望该模型能帮助研究人员更好地理解和探索零样本、任意图像分类。我们也希望它能用于跨学科研究,探讨此类模型的潜在影响。
OpenAI CLIP 论文包含了对潜在下游影响的讨论,作为此类分析的示例。此外,DataComp 论文 (https://arxiv.org/abs/2304.14108) 也特别针对训练数据集进行了额外讨论。
直接用途
零样本图像分类、图像与文本检索等。
下游用途
图像分类及其他图像任务微调、线性探针图像分类、图像生成引导与条件化等。
非适用范围
根据 OpenAI 模型,
任何 模型的部署使用案例——无论是商业还是非商业——目前均不在适用范围内。非部署使用案例(如受限环境中的图像搜索)也不推荐,除非在特定、固定的分类体系下对模型进行了彻底的领域内测试。这是因为我们的安全评估表明,尤其考虑到 CLIP 在不同分类体系下性能的变异性,任务特定测试的需求极高。这使得目前在任何使用案例中未经测试和不受约束的模型部署可能具有潜在危害。
某些使用案例(如监控和人脸识别)无论模型性能如何,始终不在适用范围内。这是因为目前缺乏测试规范和确保公平使用的检查机制,人工智能在此类任务中的应用可能为时过早。
训练详情
训练数据
此模型使用 DataComp-1B 数据集的 14 亿样本进行训练 (https://arxiv.org/abs/2304.14108)。
重要提示: 创建数据集的动机是民主化围绕大规模多模态模型训练和处理从公开可用互联网爬取的非精选大规模数据集的研究与实验。因此,我们建议将数据集用于研究目的。请注意,此大规模数据集未经精选。请记住,数据集的非精选性质意味着收集的链接可能导致人类观看者感到极度不适和不安的内容。因此,请谨慎使用演示链接,风险自负。可以通过基于安全标签(使用我们构建的定制训练的 NSFW 分类器)过滤样本来提取“安全”子集。虽然这大大降低了在查看时遇到潜在有害内容的可能性,但我们不能完全排除安全模式下仍存在有害内容的可能性,因此警告同样适用。我们认为,将数据集公开提供给广泛的研究和其他感兴趣的社区,将有助于透明地调查训练大规模模型带来的好处以及可能未被报告或注意到的陷阱和危险,而这些在封闭的大型数据集仅限小范围社区使用时可能被忽视。尽管我们公开提供数据集,但我们不建议将其用于创建即用型工业产品,因为关于此类大规模模型的一般特性和安全性的基础研究仍在进行中。
训练过程
详情请见 https://arxiv.org/abs/2304.14108。
评估
评估在 38 个数据集上进行,使用 DataComp 仓库 和 LAION CLIP 基准。
测试数据、因素与指标
测试数据
测试在一套 38 个数据集上进行。详情请见我们的论文 (https://arxiv.org/abs/2304.14108)。
结果
该模型在 ImageNet-1k 上实现了 79.2% 的零样本 top-1 准确率。更多细节和结果请见我们的论文 (https://arxiv.org/abs/2304.14108)。
致谢
感谢 stability.ai 提供训练此模型的计算资源。
引用
BibTeX:
DataComp
@article{datacomp,
title={DataComp: In search of the next generation of multimodal datasets},
author={Samir Yitzhak Gadre, Gabriel Ilharco, Alex Fang, Jonathan Hayase, Georgios Smyrnis, Thao Nguyen, Ryan Marten, Mitchell Wortsman, Dhruba Ghosh, Jieyu Zhang, Eyal Orgad, Rahim Entezari, Giannis Daras, Sarah Pratt, Vivek Ramanujan, Yonatan Bitton, Kalyani Marathe, Stephen Mussmann, Richard Vencu, Mehdi Cherti, Ranjay Krishna, Pang Wei Koh, Olga Saukh, Alexander Ratner, Shuran Song, Hannaneh Hajishirzi, Ali Farhadi, Romain Beaumont, Sewoong Oh, Alex Dimakis, Jenia Jitsev, Yair Carmon, Vaishaal Shankar, Ludwig Schmidt},
journal={arXiv preprint arXiv:2304.14108},
year={2023}
}
OpenAI CLIP 论文
@inproceedings{Radford2021LearningTV,
title={Learning Transferable Visual Models From Natural Language Supervision},
author={Alec Radford and Jong Wook Kim and Chris Hallacy and A. Ramesh and Gabriel Goh and Sandhini Agarwal and Girish Sastry and Amanda Askell and Pamela Mishkin and Jack Clark and Gretchen Krueger and Ilya Sutskever},
booktitle={ICML},
year={2021}
}
OpenCLIP 软件
@software{ilharco_gabriel_2021_5143773,
author = {Ilharco, Gabriel and
Wortsman, Mitchell and
Wightman, Ross and
Gordon, Cade and
Carlini, Nicholas and
Taori, Rohan and
Dave, Achal and
Shankar, Vaishaal and
Namkoong, Hongseok and
Miller, John and
Hajishirzi, Hannaneh and
Farhadi, Ali and
Schmidt, Ludwig},
title = {OpenCLIP},
month = jul,
year = 2021,
note = {If you use this software, please cite it as below.},
publisher = {Zenodo},
version = {0.1},
doi = {10.5281/zenodo.5143773},
url = {https://doi.org/10.5281/zenodo.5143773}
}
如何开始使用模型
参见 https://github.com/mlfoundations/open_clip