CLIP-ViT-H-14-laion2B-s32B-b79K开源视觉-语言模型，支持图像分类和跨模态检索

首页

CLIP ViT H 14 Laion2b S32b B79k

由 laion 开发

基于OpenCLIP框架在LAION-2B英文数据集上训练的视觉-语言模型，支持零样本图像分类和跨模态检索任务

文本生成图像

Safetensors

开源协议:MIT #零样本图像分类 #多模态检索 #大规模预训练

下载量 1.8M

发布时间 : 9/14/2022

模型简介

这是一个使用ViT-H/14架构的CLIP模型，专门在LAION-5B的20亿英文子集上训练。模型能够理解图像和文本之间的关联，实现零样本图像分类和跨模态检索。

模型特点

大规模预训练

在LAION-2B大规模多模态数据集上训练，具有强大的泛化能力

零样本能力

无需微调即可执行新类别的图像分类任务

跨模态理解

能够同时处理视觉和文本信息，实现图像与文本的关联

模型能力

零样本图像分类

图像文本检索

跨模态特征提取

图像分类微调

使用案例

内容检索

图像搜索引擎

使用自然语言查询检索相关图像

智能分类

动态图像分类

无需预先训练即可对新类别进行分类

在ImageNet-1k上达到78.0%的零样本top-1准确率

辅助创作

图像生成引导

为生成模型提供文本条件化指导

🚀 CLIP ViT-H/14 - LAION-2B模型卡

本模型基于LAION-2B英文子集训练，能够助力研究人员开展零样本、任意图像分类研究，还可用于图像与文本检索等任务。

🚀 快速开始

使用以下代码开始使用该模型：

# TODO - Hugging Face transformers, OpenCLIP, and timm getting started snippets

✨ 主要特性

研究导向：作为研究成果，供研究社区使用，助力研究人员理解和探索零样本、任意图像分类。
多用途：可用于零样本图像分类、图像和文本检索等直接任务，也能用于图像分类微调、图像生成引导等下游任务。

📚 详细文档

🔍 模型详情

模型描述

这是一个CLIP ViT-H/14模型，使用OpenCLIP（https://github.com/mlfoundations/open_clip）在LAION-5B的LAION-2B英文子集（https://laion.ai/blog/laion-5b/）上进行训练。模型由Romain Beaumont在stability.ai集群上完成训练。

💡 使用说明

用途范围

直接使用：零样本图像分类、图像和文本检索等。
下游使用：图像分类和其他图像任务微调、线性探针图像分类、图像生成引导和条件设定等。
超出范围使用：目前，模型的任何部署用例（无论是否商业用途）都超出范围。非部署用例（如在受限环境中的图像搜索）也不建议，除非对模型进行特定、固定类别的全面领域测试。此外，涉及监控和人脸识别的用例始终超出范围。由于模型仅在英语上训练和评估，其使用应限于英语用例。

⚙️ 训练详情

训练数据

模型使用LAION-5B的20亿样本英文子集（https://laion.ai/blog/laion-5b/）进行训练。该数据集未经过精心策划，收集的链接可能包含令人不适的内容。可通过安全标签过滤出“安全”子集，但不能完全排除有害内容。不建议将其用于创建工业产品。

训练过程

请参阅训练笔记和wandb日志。

📊 评估

评估使用LAION CLIP基准套件中的代码进行。

测试数据、因素和指标

测试数据：分类任务使用VTAB+（VTAB（https://arxiv.org/abs/1910.04867）与额外鲁棒性数据集的组合），检索任务使用COCO和Flickr。

结果

模型在ImageNet-1k上实现了78.0的零样本top-1准确率。初始基准测试已在更广泛的数据集上进行，结果可在https://github.com/LAION-AI/CLIP_benchmark/blob/main/benchmark/results.ipynb查看。

🙏 致谢

感谢stability.ai提供训练模型的计算资源。

📑 引用

BibTeX：

@inproceedings{schuhmann2022laionb,
  title={{LAION}-5B: An open large-scale dataset for training next generation image-text models},
  author={Christoph Schuhmann and
          Romain Beaumont and
          Richard Vencu and
          Cade W Gordon and
          Ross Wightman and
          Mehdi Cherti and
          Theo Coombes and
          Aarush Katta and
          Clayton Mullis and
          Mitchell Wortsman and
          Patrick Schramowski and
          Srivatsa R Kundurthy and
          Katherine Crowson and
          Ludwig Schmidt and
          Robert Kaczmarczyk and
          Jenia Jitsev},
  booktitle={Thirty-sixth Conference on Neural Information Processing Systems Datasets and Benchmarks Track},
  year={2022},
  url={https://openreview.net/forum?id=M3Y74vmsMcY}
}

@inproceedings{Radford2021LearningTV,
  title={Learning Transferable Visual Models From Natural Language Supervision},
  author={Alec Radford and Jong Wook Kim and Chris Hallacy and A. Ramesh and Gabriel Goh and Sandhini Agarwal and Girish Sastry and Amanda Askell and Pamela Mishkin and Jack Clark and Gretchen Krueger and Ilya Sutskever},
  booktitle={ICML},
  year={2021}
}

@software{ilharco_gabriel_2021_5143773,
  author       = {Ilharco, Gabriel and
                  Wortsman, Mitchell and
                  Wightman, Ross and
                  Gordon, Cade and
                  Carlini, Nicholas and
                  Taori, Rohan and
                  Dave, Achal and
                  Shankar, Vaishaal and
                  Namkoong, Hongseok and
                  Miller, John and
                  Hajishirzi, Hannaneh and
                  Farhadi, Ali and
                  Schmidt, Ludwig},
  title        = {OpenCLIP},
  month        = jul,
  year         = 2021,
  note         = {If you use this software, please cite it as below.},
  publisher    = {Zenodo},
  version      = {0.1},
  doi          = {10.5281/zenodo.5143773},
  url          = {https://doi.org/10.5281/zenodo.5143773}
}