许可证: MIT
微件:
- 来源: >-
https://huggingface.co/datasets/mishig/sample_images/resolve/main/cat-dog-music.png
候选标签: 演奏音乐, 体育运动
示例标题: 猫与狗
库名称: open_clip
数据集:
- mlfoundations/datacomp_pools
流水线标签: 零样本图像分类
CLIP ViT-B-32 256x256 基于DataComp-1B训练的模型卡片
目录
- 模型详情
- 用途
- 训练详情
- 评估
- 致谢
- 引用
- 如何开始使用该模型
模型详情
模型描述
这是一个基于DataComp-1B数据集(https://github.com/mlfoundations/datacomp)训练的CLIP ViT-B/32模型,使用OpenCLIP(https://github.com/mlfoundations/open_clip)框架在256x256分辨率下完成训练。模型训练在JURECA集群上进行。
用途
根据原始OpenAI CLIP模型卡片,该模型旨在为研究社区提供研究输出。我们希望该模型能帮助研究者更好地理解和探索零样本、任意图像分类。同时期待它能用于跨学科研究,探讨此类模型的潜在影响。
OpenAI CLIP论文包含关于潜在下游影响的讨论,为此类分析提供了范例。此外,DataComp论文(https://arxiv.org/abs/2304.14108)特别针对训练数据集进行了额外讨论。
直接用途
零样本图像分类、图文检索等任务。
下游用途
图像分类等任务的微调、线性探针图像分类、图像生成引导与条件控制等。
非适用场景
根据OpenAI模型规范:
任何实际部署场景——无论商业与否——目前均不适用。非部署场景(如受限环境中的图像搜索)同样不建议,除非针对特定固定分类体系进行了全面的领域内测试。这是因为我们的安全评估表明,鉴于CLIP在不同分类体系中的性能差异,未经测试和约束的模型部署可能具有潜在危害。
某些应用场景(如监控和人脸识别)无论模型性能如何均永远不适用。因为当前缺乏确保公平使用的测试规范和检查机制,人工智能在此类任务中的应用尚不成熟。
训练详情
训练数据
该模型使用DataComp-1B数据集的14亿样本(https://arxiv.org/abs/2304.14108)进行训练。
重要提示:创建数据集的初衷是促进关于大规模多模态模型训练及未筛选公开网络数据处理的民主化研究。因此我们建议仅将数据集用于研究目的。请注意,该大规模数据集未经人工筛选,可能包含令人不适的内容。请谨慎使用演示链接并自行承担风险。虽然可以通过安全标签(使用我们构建的定制NSFW分类器)过滤样本来创建"安全"子集,但仍不能完全排除有害内容存在的可能性。我们认为向广大研究社区开放数据集,有助于透明研究大规模模型的优势,以及使用封闭数据集时可能被忽视的缺陷和风险。但我们不推荐直接将其用于工业产品开发,因为关于此类模型通用特性和安全性的基础研究仍在进行中。
SLURM脚本
#!/bin/bash -x
source /path/miniconda/bin/activate
export CUDA_VISIBLE_DEVICES=0,1,2,3
export MASTER_PORT=12802
master_addr=$(scontrol show hostnames "$SLURM_JOB_NODELIST" | head -n 1)
export MASTER_ADDR=$master_addr"i"
echo "MASTER_ADDR="$MASTER_ADDR
srun --cpu-bind=v --cpus-per-task=12 python -u -m training.main --aug-cfg scale='(0.4, 1.0)' color_jitter='(0.32, 0.32, 0.32, 0.08)' color_jitter_prob=0.8 gray_scale_prob=0.2 use_timm=True \
--save-frequency 1 \
--zeroshot-frequency 1 \
--dataset-type webdataset \
--train-data '/path/to/data' \
--report-to tensorboard \
--train-num-samples 1398270000 \
--warmup 2000 \
--batch-size 896 \
--epochs 24 \
--workers 8 \
--model ViT-B-32-256 \
--logs logs \
--seed 0 \
--ddp-static-graph \
--local-loss \
--gather-with-grad \
--lr 0.001 \
--log-every-n-steps 20 \
--save-most-recent \
--resume latest \
--grad-checkpointing \
--precision amp_bfloat16 \
--beta1 0.9 \
--beta2 0.95 \
--wd 0.2
评估
使用LAION CLIP基准测试在38个数据集上进行评估。
测试数据、因素与指标
测试数据
测试在38个数据集组成的测试套件中进行。详见我们的论文(https://arxiv.org/abs/2304.14108)。
结果
该模型在ImageNet-1k上达到72.7%的零样本top-1准确率,在COCO字幕数据集上实现64.4%的图像检索recall@5和80.7%的文本检索recall@5。
引用
BibTeX:
DataComp
@article{datacomp,
title={DataComp: In search of the next generation of multimodal datasets},
author={Samir Yitzhak Gadre, Gabriel Ilharco, Alex Fang, Jonathan Hayase, Georgios Smyrnis, Thao Nguyen, Ryan Marten, Mitchell Wortsman, Dhruba Ghosh, Jieyu Zhang, Eyal Orgad, Rahim Entezari, Giannis Daras, Sarah Pratt, Vivek Ramanujan, Yonatan Bitton, Kalyani Marathe, Stephen Mussmann, Richard Vencu, Mehdi Cherti, Ranjay Krishna, Pang Wei Koh, Olga Saukh, Alexander Ratner, Shuran Song, Hannaneh Hajishirzi, Ali Farhadi, Romain Beaumont, Sewoong Oh, Alex Dimakis, Jenia Jitsev, Yair Carmon, Vaishaal Shankar, Ludwig Schmidt},
journal={arXiv preprint arXiv:2304.14108},
year={2023}
}
OpenAI CLIP论文
@inproceedings{Radford2021LearningTV,
title={Learning Transferable Visual Models From Natural Language Supervision},
author={Alec Radford and Jong Wook Kim and Chris Hallacy and A. Ramesh and Gabriel Goh and Sandhini Agarwal and Girish Sastry and Amanda Askell and Pamela Mishkin and Jack Clark and Gretchen Krueger and Ilya Sutskever},
booktitle={ICML},
year={2021}
}
OpenCLIP软件
@software{ilharco_gabriel_2021_5143773,
author = {Ilharco, Gabriel and
Wortsman, Mitchell and
Wightman, Ross and
Gordon, Cade and
Carlini, Nicholas and
Taori, Rohan and
Dave, Achal and
Shankar, Vaishaal and
Namkoong, Hongseok and
Miller, John and
Hajishirzi, Hannaneh and
Farhadi, Ali and
Schmidt, Ludwig},
title = {OpenCLIP},
month = jul,
year = 2021,
note = {If you use this software, please cite it as below.},
publisher = {Zenodo},
version = {0.1},
doi = {10.5281/zenodo.5143773},
url = {https://doi.org/10.5281/zenodo.5143773}
}
如何开始使用该模型
参见 https://github.com/mlfoundations/open_clip