CLIP-ViT-B-32-laion2B-s34B-b79K开源模型 - 免费支持零样本图像分类与跨模态检索

首页

CLIP ViT B 32 Laion2b S34b B79k

由 rroset 开发

基于OpenCLIP框架在LAION-2B数据集上训练的CLIP ViT-B/32模型，支持零样本图像分类和跨模态检索任务

文本生成图像

Safetensors

开源协议:MIT #零样本图像分类 #多模态检索 #英语视觉模型

下载量 48

发布时间 : 6/25/2024

模型简介

这是一个视觉-语言预训练模型，能够理解图像和文本之间的关联，支持零样本图像分类、图像文本检索等任务。

模型特点

零样本学习能力

无需特定任务微调即可执行新类别的图像分类

跨模态理解

能够同时处理图像和文本，理解两者之间的语义关联

大规模预训练

在LAION-2B（20亿样本）数据集上进行训练，具有强大的泛化能力

模型能力

零样本图像分类

图像文本检索

跨模态表示学习

图像特征提取

使用案例

内容检索

图像搜索

使用文本查询搜索相关图像

图像理解

零样本分类

无需训练即可对新类别图像进行分类

ImageNet-1k上66.6%的零样本top-1准确率

研究应用

跨模态研究

研究视觉和语言模态之间的关系

🚀 CLIP ViT - B/32 - LAION - 2B 模型卡

本模型基于 LAION - 2B 英文子集训练，可用于零样本图像分类等任务，助力研究人员探索图像分类领域。

🚀 快速开始

使用以下代码开始使用该模型：

# TODO - Hugging Face transformers, OpenCLIP, and timm getting started snippets

✨ 主要特性

研究导向：作为研究成果，助力研究人员理解和探索零样本、任意图像分类，也可用于跨学科研究。
多用途：可用于零样本图像分类、图像和文本检索等直接任务，也能用于图像分类微调、图像生成引导等下游任务。

📦 安装指南

文档未提及安装步骤，暂不展示。

💻 使用示例

文档未提供代码示例，暂不展示。

📚 详细文档

模型详情

模型描述

这是一个 CLIP ViT - B/32 模型，使用 OpenCLIP（https://github.com/mlfoundations/open_clip）在 LAION - 5B 的 LAION - 2B 英文子集（https://laion.ai/blog/laion - 5b/）上进行训练。模型由 Romain Beaumont 在 stability.ai 集群上完成训练。

用途

预期用途

正如原始的 [OpenAI CLIP 模型卡](https://github.com/openai/CLIP/blob/d50d76daa670286dd6cacf3bcd80b5e4823fc8e1/model - card.md) 所述，该模型旨在作为研究成果供研究社区使用。希望此模型能让研究人员更好地理解和探索零样本、任意图像分类，也可用于此类模型潜在影响的跨学科研究。OpenAI CLIP 论文对潜在的下游影响进行了讨论，为这类分析提供了示例。此外，LAION - 5B 博客（https://laion.ai/blog/laion - 5b/）和即将发表的论文针对训练数据集进行了额外讨论。

直接用途

零样本图像分类、图像和文本检索等。

下游用途

图像分类和其他图像任务的微调、线性探针图像分类、图像生成引导和条件设定等。

非预期用途

与 OpenAI 模型一样，该模型的任何部署用例（无论是否商业用途）目前都不在预期范围内。非部署用例，如在受限环境中的图像搜索，除非对模型使用特定、固定的类别分类法进行了全面的领域内测试，否则也不建议使用。因为安全评估表明，鉴于 CLIP 在不同类别分类法下的性能差异很大，非常需要进行特定任务的测试。这使得在任何用例中未经测试和不受约束地部署该模型目前可能有害。
某些属于监控和人脸识别领域的用例，无论模型性能如何，始终不在预期范围内。因为目前缺乏确保公平使用的测试规范和检查，使用人工智能进行此类任务可能还为时过早。
由于该模型未针对英语以外的任何语言进行专门训练和评估，其使用应限于英语用例。
此外，用于训练这些模型的 LAION - 5B 数据集还有其他注意事项，详见下文。

训练详情

训练数据

该模型使用 LAION - 5B 的 20 亿样本英文子集（https://laion.ai/blog/laion - 5b/）进行训练。

⚠️ 重要提示

创建该数据集的动机是使大规模多模态模型训练和处理从公开互联网爬取的未整理大规模数据集的研究和实验民主化。因此建议将该数据集用于研究目的。需注意，这个大规模数据集是未整理的，收集的链接可能会指向让人类观看者极度不适和不安的内容。所以，请谨慎使用演示链接并自担风险。可以通过基于安全标签过滤样本（使用我们构建的自定义训练的 NSFW 分类器）来提取“安全”子集。虽然这大大降低了查看时遇到潜在有害内容的可能性，但我们不能完全排除安全模式下仍存在有害内容的可能性，因此该警告仍然适用。我们认为，向广泛的研究和其他感兴趣的社区公开提供该数据集，将有助于透明地研究训练大规模模型带来的好处，以及在使用仅限于小社区的封闭大型数据集时可能未报告或未注意到的陷阱和危险。然而，我们不建议使用该数据集创建现成的工业产品，因为关于此类大规模模型的一般属性和安全性的基础研究仍在进行中。

训练过程

请参阅训练笔记和 [wandb 日志](https://wandb.ai/rom1504/eval_openclip/reports/B - 32 - 2B --VmlldzoyNDkwNDMy)。

评估

使用 [LAION CLIP 基准套件](https://github.com/LAION - AI/CLIP_benchmark) 中的代码进行评估。

测试数据、因素和指标

测试数据

分类任务使用 VTAB +（VTAB（https://arxiv.org/abs/1910.04867）与其他鲁棒性数据集的组合）进行测试，检索任务使用 COCO 和 Flickr 进行测试。

TODO - 更多细节

结果

该模型在 ImageNet - 1k 上实现了 66.6 的零样本 top - 1 准确率。已在更广泛的数据集上进行了初步的基准测试，目前可在 https://github.com/LAION - AI/CLIP_benchmark/blob/main/benchmark/results.ipynb 查看。

TODO - 为该模型的指标创建表格。

致谢

感谢 stability.ai 提供训练该模型的计算资源。

引用

BibTeX:

除了即将发表的 LAION - 5B（https://laion.ai/blog/laion - 5b/）论文外，请引用：

OpenAI CLIP 论文

@inproceedings{Radford2021LearningTV,
  title={Learning Transferable Visual Models From Natural Language Supervision},
  author={Alec Radford and Jong Wook Kim and Chris Hallacy and A. Ramesh and Gabriel Goh and Sandhini Agarwal and Girish Sastry and Amanda Askell and Pamela Mishkin and Jack Clark and Gretchen Krueger and Ilya Sutskever},
  booktitle={ICML},
  year={2021}
}

OpenCLIP 软件

@software{ilharco_gabriel_2021_5143773,
  author       = {Ilharco, Gabriel and
                  Wortsman, Mitchell and
                  Wightman, Ross and
                  Gordon, Cade and
                  Carlini, Nicholas and
                  Taori, Rohan and
                  Dave, Achal and
                  Shankar, Vaishaal and
                  Namkoong, Hongseok and
                  Miller, John and
                  Hajishirzi, Hannaneh and
                  Farhadi, Ali and
                  Schmidt, Ludwig},
  title        = {OpenCLIP},
  month        = jul,
  year         = 2021,
  note         = {If you use this software, please cite it as below.},
  publisher    = {Zenodo},
  version      = {0.1},
  doi          = {10.5281/zenodo.5143773},
  url          = {https://doi.org/10.5281/zenodo.5143773}
}