CLIP-ViT-B-16-laion2B-s34B-b88K开源多模态模型 - 免费实现零样本图像分类

首页

CLIP ViT B 16 Laion2b S34b B88k

由 laion 开发

基于OpenCLIP框架训练的多模态视觉语言模型，在LAION-2B英语数据集上训练完成，支持零样本图像分类任务

文本生成图像

Safetensors

开源协议:MIT #零样本图像分类 #多模态检索 #英语图文匹配

下载量 251.02k

发布时间 : 1/3/2023

模型简介

该CLIP模型采用ViT-B/16架构，通过对比学习实现图像与文本的联合表示，可用于零样本图像分类、图文检索等跨模态任务

模型特点

大规模训练数据

使用LAION-5B的20亿英语样本子集训练，涵盖广泛视觉概念

零样本学习能力

无需微调即可直接应用于新类别识别任务

跨模态对齐

通过对比学习实现图像与文本特征的统一表示空间

模型能力

零样本图像分类

图文相似度计算

跨模态检索

图像特征提取

使用案例

计算机视觉

开放域图像分类

使用自然语言描述直接分类图像，无需预定义类别体系

ImageNet-1k上达到70.2%零样本top-1准确率

信息检索

图文交叉检索

实现文本到图像或图像到文本的双向检索

🚀 CLIP ViT-B/16 - LAION-2B模型卡片

CLIP ViT-B/16 - LAION-2B是一个经过特定训练的模型，可用于零样本图像分类等研究场景，为研究人员探索图像分类等领域提供了有力工具。

🚀 快速开始

此部分文档主要介绍了CLIP ViT-B/16 - LAION-2B模型的详细信息，包括模型详情、用途、训练细节、评估等内容，方便研究人员了解和使用该模型。

✨ 主要特性

研究导向：作为研究输出，供研究社区使用，助力研究人员探索零样本、任意图像分类。
多用途：可用于零样本图像分类、图像和文本检索、图像分类微调、图像生成引导等多种任务。

📦 安装指南

文档未提及安装步骤，暂不展示。

💻 使用示例

文档未提供代码示例，暂不展示。

📚 详细文档

🔍 模型详情

模型描述

使用OpenCLIP（https://github.com/mlfoundations/open_clip），基于LAION - 5B（https://laion.ai/blog/laion - 5b/）的LAION - 2B英文子集训练的CLIP ViT - B/16模型。模型由Mehdi Cherti在[JUWELS Booster](https://apps.fz - juelich.de/jsc/hps/juwels/booster - overview.html)超级计算机上完成训练，具体致谢信息见下文。

📋 用途

原设计意图

根据原始的[OpenAI CLIP模型卡片](https://github.com/openai/CLIP/blob/d50d76daa670286dd6cacf3bcd80b5e4823fc8e1/model - card.md)，该模型旨在作为研究成果供研究社区使用。期望研究人员能借此更好地理解和探索零样本、任意图像分类，也可用于跨学科研究此类模型的潜在影响。OpenAI CLIP论文对潜在的下游影响进行了讨论，为这类分析提供了示例。此外，LAION - 5B博客（https://laion.ai/blog/laion - 5b/）及即将发表的论文也针对训练数据集进行了额外讨论。

直接用途

零样本图像分类、图像和文本检索等。

下游用途

图像分类及其他图像任务微调、线性探针图像分类、图像生成引导和条件设定等。

非预期用途

与OpenAI模型一样，目前模型的任何部署用例（无论是否商用）都不在预期范围内。非部署用例（如在受限环境中的图像搜索）也不建议使用，除非针对特定、固定的类别分类法对模型进行了全面的领域内测试。因为安全评估表明，鉴于CLIP在不同类别分类法下的性能差异较大，非常有必要针对特定任务进行测试。这使得在未经测试和不受约束的情况下将模型用于任何用例目前都可能存在危害。某些属于监控和人脸识别领域的用例，无论模型性能如何，始终不在预期范围内。因为目前缺乏确保公平使用的测试规范和检查机制，将人工智能用于此类任务还为时过早。由于该模型仅在英语环境下进行训练和评估，其使用应限于英语用例。此外，用于训练这些模型的LAION - 5B数据集还有其他需要考虑的因素，详见下文。

🛠️ 训练详情

训练数据

该模型使用LAION - 5B的20亿样本英文子集进行训练（https://laion.ai/blog/laion - 5b/）。

⚠️ 重要提示

创建该数据集的目的是推动大规模多模态模型训练以及处理从公开互联网爬取的未整理大规模数据集的研究和实验。因此，建议将该数据集用于研究目的。需注意，这个大规模数据集未经整理，收集的链接可能会指向令人极度不适和不安的内容。所以，请谨慎使用演示链接，并自行承担风险。可以通过基于安全标签过滤样本（使用我们定制训练的NSFW分类器）来提取“安全”子集。虽然这能大大降低查看时遇到潜在有害内容的几率，但我们不能完全排除安全模式下仍存在有害内容的可能性，因此该警告同样适用。我们认为，向广大研究和其他感兴趣的社区公开提供该数据集，有助于透明地研究训练大规模模型带来的益处，以及使用封闭的、仅限小部分社区使用的大型数据集时可能未被报告或注意到的陷阱和危险。然而，我们不建议使用该数据集来创建现成的工业产品，因为关于此类大规模模型的一般特性和安全性的基础研究仍在进行中。

训练过程

待补充。

📊 评估

使用[LAION CLIP Benchmark suite](https://github.com/LAION - AI/CLIP_benchmark)中的代码进行评估。

测试数据、因素和指标

测试数据

分类任务使用VTAB +（VTAB（https://arxiv.org/abs/1910.04867）与其他鲁棒性数据集的组合）进行测试，检索任务使用COCO和Flickr进行测试。

评估结果

该模型在ImageNet - 1k上的零样本top - 1准确率达到70.2。已在更广泛的数据集上进行了初步基准测试，目前可在https://github.com/LAION - AI/CLIP_benchmark/blob/main/benchmark/results.ipynb查看。

🙏 致谢

感谢高斯超级计算中心（Gauss Centre for Supercomputing e.V.，http://gauss - centre.eu）通过约翰·冯·诺伊曼计算研究所（NIC）在于利希超级计算中心（JSC）的GCS超级计算机JUWELS Booster上提供计算时间，资助了这部分工作。

📑 引用

BibTeX引用

LAION - 5B

@inproceedings{schuhmann2022laionb,
  title={{LAION}-5B: An open large-scale dataset for training next generation image-text models},
  author={Christoph Schuhmann and
          Romain Beaumont and
          Richard Vencu and
          Cade W Gordon and
          Ross Wightman and
          Mehdi Cherti and
          Theo Coombes and
          Aarush Katta and
          Clayton Mullis and
          Mitchell Wortsman and
          Patrick Schramowski and
          Srivatsa R Kundurthy and
          Katherine Crowson and
          Ludwig Schmidt and
          Robert Kaczmarczyk and
          Jenia Jitsev},
  booktitle={Thirty-sixth Conference on Neural Information Processing Systems Datasets and Benchmarks Track},
  year={2022},
  url={https://openreview.net/forum?id=M3Y74vmsMcY}
}

OpenAI CLIP论文

@inproceedings{Radford2021LearningTV,
  title={Learning Transferable Visual Models From Natural Language Supervision},
  author={Alec Radford and Jong Wook Kim and Chris Hallacy and A. Ramesh and Gabriel Goh and Sandhini Agarwal and Girish Sastry and Amanda Askell and Pamela Mishkin and Jack Clark and Gretchen Krueger and Ilya Sutskever},
  booktitle={ICML},
  year={2021}
}

OpenCLIP软件

@software{ilharco_gabriel_2021_5143773,
  author       = {Ilharco, Gabriel and
                  Wortsman, Mitchell and
                  Wightman, Ross and
                  Gordon, Cade and
                  Carlini, Nicholas and
                  Taori, Rohan and
                  Dave, Achal and
                  Shankar, Vaishaal and
                  Namkoong, Hongseok and
                  Miller, John and
                  Hajishirzi, Hannaneh and
                  Farhadi, Ali and
                  Schmidt, Ludwig},
  title        = {OpenCLIP},
  month        = jul,
  year         = 2021,
  note         = {If you use this software, please cite it as below.},
  publisher    = {Zenodo},
  version      = {0.1},
  doi          = {10.5281/zenodo.5143773},
  url          = {https://doi.org/10.5281/zenodo.5143773}
}