license: mit
pipeline_tag: zero-shot-image-classification
library_name: open_clip
CLIP ViT-B/16 - LAION-2B模型卡
目录
- 模型详情
- 用途
- 训练详情
- 评估
- 致谢
- 引用
模型详情
模型描述
该CLIP ViT-B/16模型使用OpenCLIP框架(https://github.com/mlfoundations/open_clip),在LAION-5B的英语子集LAION-2B(https://laion.ai/blog/laion-5b/)上训练完成。
模型训练由Mehdi Cherti在JUWELS Booster超级计算机上完成。具体致谢信息见下文。
用途
根据原始OpenAI CLIP模型卡,本模型旨在作为研究社区的科研产出。我们希望该模型能帮助研究者更好地理解和探索零样本任意图像分类任务,同时也期待它能用于跨学科研究此类模型的潜在影响。
OpenAI CLIP论文包含对下游潜在影响的讨论,可作为此类分析的范例。此外,LAION-5B博客(https://laion.ai/blog/laion-5b/)及即将发表的论文也针对训练数据集进行了额外讨论。
直接用途
零样本图像分类、图文检索等任务。
下游用途
图像分类等任务的微调、线性探针图像分类、图像生成引导与条件控制等。
非适用场景
根据OpenAI模型规范:
任何实际部署场景——无论商用与否——目前均不适用。非部署场景(如受限环境中的图像搜索)除非经过特定固定分类体系的全面领域测试,否则同样不推荐。这是因为我们的安全评估表明,鉴于CLIP在不同分类体系下表现的差异性,任务特定测试尤为重要。因此当前任何未经测试和约束的模型部署都可能存在潜在风险。
某些应用场景(如监控和人脸识别)无论模型性能如何都始终不适用。鉴于目前缺乏确保公平使用的测试规范和检查机制,将人工智能用于此类任务为时尚早。
由于模型仅针对英语进行训练和评估,其使用应限于英语应用场景。
除上述声明外,训练所用的LAION-5B数据集还有额外注意事项,详见下文。
训练详情
训练数据
本模型使用LAION-5B(https://laion.ai/blog/laion-5b/)的20亿英语样本子集训练。
重要提示:创建该数据集的初衷是促进大规模多模态模型训练及公开网络爬取的非精选大规模数据集处理的研究实验民主化。因此我们建议仅将数据集用于研究目的。请注意该大规模数据集未经筛选,部分链接可能包含令人不适或不安的内容。请谨慎使用演示链接并自行承担风险。可通过安全标签(使用我们构建的定制化NSFW分类器)过滤样本获取"安全"子集。虽然这能大幅降低接触有害内容的概率,但我们不能完全排除安全模式下仍存在有害内容的可能性,故警告依然适用。我们认为向广大研究社区开放数据集有助于透明研究大规模模型的优势,以及使用封闭数据集时可能未被报告或发现的缺陷与风险。虽然我们公开数据集,但不建议直接用于工业产品开发,因为关于此类大规模模型通用特性与安全性的基础研究仍在进行中。
训练流程
待补充
评估
评估使用LAION CLIP基准测试套件中的代码完成。
测试数据、因素与指标
测试数据
分类任务使用VTAB+(VTAB(https://arxiv.org/abs/1910.04867)与额外鲁棒性数据集的组合),检索任务使用COCO和Flickr数据集。
结果
该模型在ImageNet-1k上达到70.2%的零样本top-1准确率。
已在更广泛的数据集上完成初步基准测试,结果详见:https://github.com/LAION-AI/CLIP_benchmark/blob/main/benchmark/results.ipynb
致谢
感谢高斯超级计算中心(http://gauss-centre.eu)通过约翰·冯·诺伊曼研究所(NIC)在于利希超级计算中心(JSC)的JUWELS Booster超级计算机上提供计算资源,资助了本项研究工作。
引用
BibTeX格式:
LAION-5B
@inproceedings{schuhmann2022laionb,
title={{LAION}-5B: 一个用于训练下一代图文模型的大规模开放数据集},
author={克里斯托夫·舒曼等},
booktitle={第三十六届神经信息处理系统会议数据集与基准赛道},
year={2022},
url={https://openreview.net/forum?id=M3Y74vmsMcY}
}
OpenAI CLIP论文
@inproceedings{Radford2021LearningTV,
title={从自然语言监督中学习可迁移的视觉模型},
author={亚历克·拉德福德等},
booktitle={ICML},
year={2021}
}
OpenCLIP软件
@software{ilharco_gabriel_2021_5143773,
author = {加布里埃尔·伊尔哈科等},
title = {OpenCLIP},
month = 7月,
year = 2021,
note = {若使用本软件,请按如下方式引用},
publisher = {Zenodo},
version = {0.1},
doi = {10.5281/zenodo.5143773},
url = {https://doi.org/10.5281/zenodo.5143773}
}