许可协议: mit
微件:
- 来源: >-
https://huggingface.co/datasets/mishig/sample_images/resolve/main/cat-dog-music.png
候选标签: 演奏音乐, 体育运动
示例标题: 猫与狗
库名称: open_clip
管道标签: 零样本图像分类
CLIP ViT-bigG/14 - LAION-2B 模型卡
目录
- 模型详情
- 用途
- 训练详情
- 评估
- 致谢
- 引用
- 如何开始使用该模型
模型详情
模型描述
这是一个使用OpenCLIP (https://github.com/mlfoundations/open_clip) 在LAION-5B (https://laion.ai/blog/laion-5b/) 的LAION-2B英语子集上训练的CLIP ViT-bigG/14模型。
模型训练由Mitchell Wortsman在stability.ai集群上完成。
该模型的许可证为MIT。
用途
根据原始OpenAI CLIP模型卡,该模型旨在作为研究社区的研究输出。我们希望该模型能够帮助研究人员更好地理解和探索零样本、任意图像分类。我们也希望它可以用于跨学科研究,探讨此类模型的潜在影响。
OpenAI CLIP论文包含了对潜在下游影响的讨论,为这类分析提供了示例。此外,LAION-5B博客(https://laion.ai/blog/laion-5b/)和即将发表的论文也包含了与训练数据集相关的额外讨论。
直接用途
零样本图像分类、图像和文本检索等。
下游用途
图像分类和其他图像任务微调、线性探测图像分类、图像生成引导和条件化等。
超出范围的用途
根据OpenAI模型,
任何模型的部署用例——无论是商业还是非商业——目前都超出范围。非部署用例,如受限环境中的图像搜索,除非对具有特定固定分类法的模型进行了彻底的领域内测试,否则也不推荐。这是因为我们的安全评估表明,特别需要针对特定任务的测试,尤其是考虑到CLIP在不同分类法中的性能可变性。这使得在任何用例中未经测试和不受约束地部署模型目前可能是有害的。
某些用例,如监视和人脸识别,无论模型性能如何,始终超出范围。这是因为目前缺乏测试规范和确保其公平使用的检查,使得人工智能用于此类任务可能为时过早。
由于该模型没有专门训练或评估过英语以外的任何语言,其使用应限于英语语言用例。
除上述通知外,用于训练这些模型的LAION-5B数据集还有其他注意事项,见下文。
训练详情
训练数据
该模型在LAION-5B (https://laion.ai/blog/laion-5b/) 的20亿样本英语子集上训练。微调也部分在LAION-A上进行,这是LAION-2B的一个9亿样本子集,经过美学V2 4.5+过滤和phash去重。
重要提示: 创建数据集的动机是民主化围绕大规模多模态模型训练和处理从公开可用互联网爬取的非精选大规模数据集的研究和实验。因此,我们建议将数据集用于研究目的。请注意,这个大规模数据集是非精选的。请记住,数据集的非精选性质意味着收集的链接可能导致人类观看者强烈不适和不安的内容。因此,请谨慎使用演示链接,风险自负。可以通过基于安全标签(使用我们构建的定制训练的NSFW分类器)过滤样本来提取“安全”子集。虽然这大大减少了在查看时遇到潜在有害内容的机会,但我们不能完全排除在安全模式下仍存在有害内容的可能性,因此警告同样适用。我们认为,向广泛的研究和其他感兴趣的社区公开提供数据集,将有助于透明地调查训练大规模模型带来的好处,以及在使用封闭的大规模数据集(这些数据集仍限于小社区)时可能未被报告或注意到的陷阱和危险。虽然我们公开提供数据集,但我们不建议将其用于创建即用型工业产品,因为关于此类大规模模型的一般特性和安全性的基础研究仍在进行中,我们希望通过此次发布鼓励这一研究。
训练过程
训练过程将很快在laion.ai的博客文章中讨论。
评估
使用LAION CLIP基准套件中的代码进行评估。
测试数据、因素和指标
测试数据
使用VTAB+(VTAB (https://arxiv.org/abs/1910.04867) 与额外鲁棒性数据集的组合)进行分类测试,使用COCO和Flickr进行检索测试。
待办 - 更多细节
结果
该模型在ImageNet-1k上实现了80.1的零样本top-1准确率。
已在更广泛的数据集上进行了初步基准测试,结果将很快在https://github.com/LAION-AI/CLIP_benchmark/blob/main/benchmark/results.ipynb 可见。
待办 - 创建仅包含该模型指标的表格。
致谢
感谢stability.ai 提供用于训练该模型的计算资源。
引用
BibTeX:
LAION-5B
@inproceedings{schuhmann2022laionb,
title={{LAION}-5B: An open large-scale dataset for training next generation image-text models},
author={Christoph Schuhmann and
Romain Beaumont and
Richard Vencu and
Cade W Gordon and
Ross Wightman and
Mehdi Cherti and
Theo Coombes and
Aarush Katta and
Clayton Mullis and
Mitchell Wortsman and
Patrick Schramowski and
Srivatsa R Kundurthy and
Katherine Crowson and
Ludwig Schmidt and
Robert Kaczmarczyk and
Jenia Jitsev},
booktitle={Thirty-sixth Conference on Neural Information Processing Systems Datasets and Benchmarks Track},
year={2022},
url={https://openreview.net/forum?id=M3Y74vmsMcY}
}
OpenAI CLIP论文
@inproceedings{Radford2021LearningTV,
title={Learning Transferable Visual Models From Natural Language Supervision},
author={Alec Radford and Jong Wook Kim and Chris Hallacy and A. Ramesh and Gabriel Goh and Sandhini Agarwal and Girish Sastry and Amanda Askell and Pamela Mishkin and Jack Clark and Gretchen Krueger and Ilya Sutskever},
booktitle={ICML},
year={2021}
}
OpenCLIP软件
@software{ilharco_gabriel_2021_5143773,
author = {Ilharco, Gabriel and
Wortsman, Mitchell and
Wightman, Ross and
Gordon, Cade and
Carlini, Nicholas and
Taori, Rohan and
Dave, Achal and
Shankar, Vaishaal and
Namkoong, Hongseok and
Miller, John and
Hajishirzi, Hannaneh and
Farhadi, Ali and
Schmidt, Ludwig},
title = {OpenCLIP},
month = jul,
year = 2021,
note = {If you use this software, please cite it as below.},
publisher = {Zenodo},
version = {0.1},
doi = {10.5281/zenodo.5143773},
url = {https://doi.org/10.5281/zenodo.5143773}
}
扩展OpenCLIP论文
@article{cherti2022reproducible,
title={Reproducible scaling laws for contrastive language-image learning},
author={Cherti, Mehdi and Beaumont, Romain and Wightman, Ross and Wortsman, Mitchell and Ilharco, Gabriel and Gordon, Cade and Schuhmann, Christoph and Schmidt, Ludwig and Jitsev, Jenia},
journal={arXiv preprint arXiv:2212.07143},
year={2022}
}
如何开始使用该模型
使用以下代码开始使用该模型。
待办 - Hugging Face transformers、OpenCLIP和timm的入门代码片段