CLIP-ViT-B-32-DataComp.XL-s13B-b90K开源模型 - 免费实现零样本图像分类与文本检索

首页

CLIP ViT B 32 DataComp.XL S13b B90k

由 laion 开发

这是一个基于 DataComp-1B 数据集训练的 CLIP ViT-B/32 模型，用于零样本图像分类和图像文本检索等任务。

文本生成图像

Safetensors

开源协议:MIT #零样本图像分类 #多模态检索 #大规模预训练

下载量 12.12k

发布时间 : 9/29/2023

模型简介

该模型使用 OpenCLIP 框架在 DataComp-1B 数据集上训练，旨在为研究社区提供研究输出，帮助探索零样本、任意图像分类。

模型特点

大规模数据训练

使用 DataComp-1B 数据集的 14 亿样本进行训练，覆盖广泛的视觉概念。

零样本能力

无需特定任务微调即可执行图像分类和检索任务。

研究友好

专为研究社区设计，支持跨学科研究和潜在影响分析。

模型能力

零样本图像分类

图像文本检索

跨模态理解

图像特征提取

使用案例

研究应用

零样本图像分类研究

探索模型在不同类别分类法下的性能表现

在 ImageNet-1k 上实现 72.7% 的零样本 top-1 准确率

跨模态理解研究

研究视觉和语言模态之间的关联学习

潜在应用

图像搜索系统

基于文本查询检索相关图像

内容审核辅助

识别图像中的潜在有害内容

🚀 CLIP ViT-B-32基于DataComp-1B训练的模型卡片

本模型是使用OpenCLIP在DataComp-1B数据集上训练的CLIP ViT-B/32模型，旨在助力研究人员开展零样本、任意图像分类的研究与探索。

📚 详细文档

🔎 模型详情

模型描述

这是一个基于OpenCLIP（https://github.com/mlfoundations/open_clip），使用DataComp-1B（https://github.com/mlfoundations/datacomp）数据集训练的CLIP ViT-B/32模型。模型训练在 stability.ai 集群上完成。

🛠️ 用途

预期用途

参照原始的 OpenAI CLIP模型卡片，本模型是为研究社区提供的研究成果。我们期望该模型能帮助研究人员更好地理解和探索零样本、任意图像分类，同时也可用于跨学科研究此类模型的潜在影响。OpenAI CLIP论文中对潜在的下游影响进行了讨论，为这类分析提供了示例。此外，DataComp论文（https://arxiv.org/abs/2304.14108）也针对训练数据集进行了额外讨论。

直接用途

零样本图像分类、图像和文本检索等。

下游用途

图像分类及其他图像任务的微调、线性探针图像分类、图像生成的引导和条件设置等。

非预期用途

参照OpenAI模型的情况，任何模型的部署用例（无论是否商业用途）目前都不在预期范围内。非部署用例，如在受限环境中的图像搜索，除非对模型在特定、固定类别分类法下进行了全面的领域内测试，否则也不建议使用。这是因为我们的安全评估表明，鉴于CLIP在不同类别分类法下性能的可变性，对特定任务进行测试十分必要。因此，在任何用例中未经测试和不受约束地部署该模型目前都可能有害。

某些属于监控和人脸识别领域的用例，无论模型性能如何，始终不在预期范围内。这是因为目前缺乏确保公平使用的测试规范和检查，使用人工智能进行此类任务可能还不成熟。

📈 训练详情

训练数据

该模型使用了DataComp-1B数据集的14亿个样本进行训练（https://arxiv.org/abs/2304.14108）。

⚠️ 重要提示

创建该数据集的目的是推动大规模多模态模型训练以及处理从公开互联网爬取的未整理大规模数据集的研究和实验。因此，我们建议仅将该数据集用于研究目的。需注意，这个大规模数据集未经过整理，收集的链接可能会指向令人极度不适和不安的内容。所以，请谨慎使用演示链接并自行承担风险。可以通过基于安全标签过滤样本（使用我们构建的自定义训练的NSFW分类器）来提取“安全”子集。虽然这能大大降低查看时遇到潜在有害内容的几率，但我们无法完全排除安全模式下仍存在有害内容的可能性，因此警告仍然适用。我们认为，向广泛的研究和其他感兴趣的社区公开提供该数据集，将有助于透明地研究训练大规模模型带来的好处，以及在使用仅限小社区访问的封闭大型数据集时可能未被报告或注意到的陷阱和危险。然而，我们不建议使用该数据集创建现成的工业产品，因为关于此类大规模模型的一般属性和安全性的基础研究仍在进行中。

训练过程

详情请见 https://arxiv.org/abs/2304.14108。

🧪 评估

使用 DataComp仓库和 LAION CLIP基准测试在38个数据集上进行了评估。

测试数据、因素和指标

测试数据

测试在38个数据集上进行。更多详细信息请参阅我们的论文（https://arxiv.org/abs/2304.14108）。

结果

该模型在ImageNet-1k上实现了72.7%的零样本top-1准确率。更多详细信息和结果请参阅我们的论文（https://arxiv.org/abs/2304.14108）。

🙏 致谢

感谢 stability.ai 提供训练该模型所需的计算资源。

📝 引用

BibTeX格式引用如下：

DataComp

@article{datacomp,
  title={DataComp: In search of the next generation of multimodal datasets},
  author={Samir Yitzhak Gadre, Gabriel Ilharco, Alex Fang, Jonathan Hayase, Georgios Smyrnis, Thao Nguyen, Ryan Marten, Mitchell Wortsman, Dhruba Ghosh, Jieyu Zhang, Eyal Orgad, Rahim Entezari, Giannis Daras, Sarah Pratt, Vivek Ramanujan, Yonatan Bitton, Kalyani Marathe, Stephen Mussmann, Richard Vencu, Mehdi Cherti, Ranjay Krishna, Pang Wei Koh, Olga Saukh, Alexander Ratner, Shuran Song, Hannaneh Hajishirzi, Ali Farhadi, Romain Beaumont, Sewoong Oh, Alex Dimakis, Jenia Jitsev, Yair Carmon, Vaishaal Shankar, Ludwig Schmidt},
  journal={arXiv preprint arXiv:2304.14108},
  year={2023}
}

OpenAI CLIP论文

@inproceedings{Radford2021LearningTV,
  title={Learning Transferable Visual Models From Natural Language Supervision},
  author={Alec Radford and Jong Wook Kim and Chris Hallacy and A. Ramesh and Gabriel Goh and Sandhini Agarwal and Girish Sastry and Amanda Askell and Pamela Mishkin and Jack Clark and Gretchen Krueger and Ilya Sutskever},
  booktitle={ICML},
  year={2021}
}

OpenCLIP软件

@software{ilharco_gabriel_2021_5143773,
  author       = {Ilharco, Gabriel and
                  Wortsman, Mitchell and
                  Wightman, Ross and
                  Gordon, Cade and
                  Carlini, Nicholas and
                  Taori, Rohan and
                  Dave, Achal and
                  Shankar, Vaishaal and
                  Namkoong, Hongseok and
                  Miller, John and
                  Hajishirzi, Hannaneh and
                  Farhadi, Ali and
                  Schmidt, Ludwig},
  title        = {OpenCLIP},
  month        = jul,
  year         = 2021,
  note         = {If you use this software, please cite it as below.},
  publisher    = {Zenodo},
  version      = {0.1},
  doi          = {10.5281/zenodo.5143773},
  url          = {https://doi.org/10.5281/zenodo.5143773}
}

🚀 如何开始使用该模型

请参阅 https://github.com/mlfoundations/open_clip

📄 许可证

本模型采用MIT许可证。

📊 模型信息表格

属性	详情
模型类型	基于DataComp-1B数据集训练的CLIP ViT-B/32模型
训练数据	DataComp-1B数据集的14亿个样本
管道标签	零样本图像分类
库名称	open_clip
数据集	mlfoundations/datacomp_pools