CLIP-ViT-L-14-DataComp.XL-s13B-b90K开源模型 - 用于零样本图像分类和图文检索

首页

CLIP ViT L 14 DataComp.XL S13b B90k

由 laion 开发

该模型是基于DataComp-1B数据集训练的CLIP ViT-L/14模型，主要用于零样本图像分类和图文检索任务。

文本生成图像开源协议:MIT #零样本图像分类 #多模态检索 #14亿参数规模

下载量 586.75k

发布时间 : 4/26/2023

模型简介

使用OpenCLIP框架在DataComp-1B数据集上训练的视觉语言模型，能够执行零样本图像分类和图文检索等任务。

模型特点

大规模训练数据

使用DataComp-1B数据集的14亿样本进行训练，覆盖广泛视觉概念

零样本能力

无需微调即可执行新类别图像分类任务

跨模态理解

同时理解图像和文本信息，支持图文检索任务

模型能力

零样本图像分类

图文检索

跨模态理解

使用案例

计算机视觉

图像分类

无需训练即可对新类别图像进行分类

在ImageNet-1k上达到79.2%的零样本top-1准确率

图文检索

根据文本描述搜索相关图像，或根据图像生成描述

研究

多模态研究

研究视觉语言模型的表征学习和迁移能力

🚀 CLIP ViT-L-14基于DataComp-1B训练的模型卡片

本模型是使用OpenCLIP在DataComp-1B数据集上训练的CLIP ViT-L/14模型，可用于零样本图像分类等任务，为研究人员探索零样本图像分类提供了有力工具。

🚀 快速开始

若要开始使用该模型，请参考：https://github.com/mlfoundations/open_clip

✨ 主要特性

研究导向：作为研究成果，助力研究社区探索零样本、任意图像分类。
多用途：可用于零样本图像分类、图像和文本检索等直接任务，也能用于图像分类微调、图像生成引导等下游任务。

📦 安装指南

文档未提及安装步骤，故跳过此章节。

💻 使用示例

文档未提供代码示例，故跳过此章节。

📚 详细文档

🔍 模型详情

模型描述

这是一个使用OpenCLIP（https://github.com/mlfoundations/open_clip）在DataComp-1B（https://github.com/mlfoundations/datacomp）数据集上训练的CLIP ViT-L/14模型。模型训练在 stability.ai 集群上完成。

🔍 使用场景

预期用途

此模型作为研究成果供研究社区使用，旨在帮助研究人员更好地理解和探索零样本、任意图像分类，也可用于跨学科研究该模型的潜在影响。OpenAI CLIP论文和DataComp论文（https://arxiv.org/abs/2304.14108）分别对潜在下游影响和训练数据集进行了讨论。

直接用途

零样本图像分类、图像和文本检索等。

下游用途

图像分类及其他图像任务微调、线性探针图像分类、图像生成引导和条件设定等。

不适用场景

目前，模型的任何部署用例（无论是否商业用途）都不在适用范围内。非部署用例（如在受限环境中的图像搜索）也不推荐，除非对模型进行了特定、固定类别分类法的全面领域测试。因为安全评估表明，鉴于CLIP在不同类别分类法下性能的可变性，非常需要进行特定任务测试。未经测试和无约束地部署模型在任何用例中目前都可能有害。
涉及监控和人脸识别领域的某些用例，无论模型性能如何，始终不在适用范围内。因为目前缺乏确保公平使用的测试规范和检查，使用人工智能进行此类任务可能为时过早。

🔍 训练详情

训练数据

该模型使用DataComp-1B数据集的14亿个样本进行训练（https://arxiv.org/abs/2304.14108）。

⚠️ 重要提示

数据集创建的动机是使大规模多模态模型训练和处理从公共互联网抓取的未整理大规模数据集的研究和实验民主化。因此，建议将数据集用于研究目的。需注意，该大规模数据集未经过整理，收集的链接可能会导致人类观察者看到非常不适和令人不安的内容。所以，请谨慎使用演示链接，并自行承担风险。可以通过基于安全标签过滤样本（使用我们构建的自定义训练的NSFW分类器）来提取“安全”子集。虽然这大大降低了查看时遇到潜在有害内容的机会，但我们不能完全排除安全模式下仍存在有害内容的可能性，因此该警告同样适用。我们认为，向广泛的研究和其他感兴趣的社区公开提供数据集，将有助于透明地研究训练大规模模型带来的好处，以及在使用仅限于小社区的封闭大型数据集时可能未报告或未注意到的陷阱和危险。然而，我们不建议使用该数据集创建现成的工业产品，因为关于此类大规模模型的一般属性和安全性的基础研究仍在进行中，我们希望通过此次发布鼓励这方面的研究。

训练过程

请参考：https://arxiv.org/abs/2304.14108

🔍 评估

使用 DataComp repo 和 LAION CLIP Benchmark 在38个数据集上进行评估。

测试数据、因素和指标

测试数据

测试在一组38个数据集上进行。更多详情请参阅我们的论文（https://arxiv.org/abs/2304.14108）。

评估结果

该模型在ImageNet-1k上实现了79.2%的零样本top-1准确率。更多详情和结果请参阅我们的论文（https://arxiv.org/abs/2304.14108）。

🔍 致谢

感谢 stability.ai 提供训练此模型的计算资源。

🔍 引用

DataComp

@article{datacomp,
  title={DataComp: In search of the next generation of multimodal datasets},
  author={Samir Yitzhak Gadre, Gabriel Ilharco, Alex Fang, Jonathan Hayase, Georgios Smyrnis, Thao Nguyen, Ryan Marten, Mitchell Wortsman, Dhruba Ghosh, Jieyu Zhang, Eyal Orgad, Rahim Entezari, Giannis Daras, Sarah Pratt, Vivek Ramanujan, Yonatan Bitton, Kalyani Marathe, Stephen Mussmann, Richard Vencu, Mehdi Cherti, Ranjay Krishna, Pang Wei Koh, Olga Saukh, Alexander Ratner, Shuran Song, Hannaneh Hajishirzi, Ali Farhadi, Romain Beaumont, Sewoong Oh, Alex Dimakis, Jenia Jitsev, Yair Carmon, Vaishaal Shankar, Ludwig Schmidt},
  journal={arXiv preprint arXiv:2304.14108},
  year={2023}
}

OpenAI CLIP paper

@inproceedings{Radford2021LearningTV,
  title={Learning Transferable Visual Models From Natural Language Supervision},
  author={Alec Radford and Jong Wook Kim and Chris Hallacy and A. Ramesh and Gabriel Goh and Sandhini Agarwal and Girish Sastry and Amanda Askell and Pamela Mishkin and Jack Clark and Gretchen Krueger and Ilya Sutskever},
  booktitle={ICML},
  year={2021}
}

OpenCLIP software

@software{ilharco_gabriel_2021_5143773,
  author       = {Ilharco, Gabriel and
                  Wortsman, Mitchell and
                  Wightman, Ross and
                  Gordon, Cade and
                  Carlini, Nicholas and
                  Taori, Rohan and
                  Dave, Achal and
                  Shankar, Vaishaal and
                  Namkoong, Hongseok and
                  Miller, John and
                  Hajishirzi, Hannaneh and
                  Farhadi, Ali and
                  Schmidt, Ludwig},
  title        = {OpenCLIP},
  month        = jul,
  year         = 2021,
  note         = {If you use this software, please cite it as below.},
  publisher    = {Zenodo},
  version      = {0.1},
  doi          = {10.5281/zenodo.5143773},
  url          = {https://doi.org/10.5281/zenodo.5143773}
}