CLIP-ViT-L-14-spectrum-icons-20k开源模型 - 用于抽象图像与文本检索任务

首页

CLIP ViT L 14 Spectrum Icons 20k

由 JianLiao 开发

基于CLIP ViT-L/14微调的视觉语言模型，专为抽象图像-文本检索任务优化

文本生成图像

TensorBoard

英语开源协议:MIT #零样本图像分类 #抽象视觉检索 #文本图像对齐

下载量 1,576

发布时间 : 1/5/2025

模型简介

该模型在23,000个抽象图像-文本对上微调，提升了文本到图像和图像到文本检索性能，特别适合处理抽象视觉特征

模型特点

抽象视觉特征理解

通过专用数据集微调，增强了对抽象图标和符号的理解能力

高效检索能力

在图像-文本双向检索任务中R@1达到70%，R@5超过96%

领域适应性

保持基础模型泛化能力的同时，优化了特定领域的表现

模型能力

零样本图像分类

文本到图像检索

图像到文本检索

抽象视觉特征匹配

使用案例

信息检索

图标库搜索

通过自然语言描述检索匹配的图标图像

R@1准确率约70%

内容管理

自动图像标注

为抽象图标生成描述性文本标签

🚀 CLIP-ViT-L-14-spectrum-icons-23k模型卡片

本模型是基于预训练模型进一步微调的成果，旨在提升文本到图像以及图像到文本的检索性能，能有效处理抽象视觉特征，增强RAG性能。

🚀 快速开始

安装所需依赖并加载微调后的模型：

from open_clip import create_model_and_transforms, tokenizer

model, preprocess = create_model_and_transforms(
    model_name="hf-hub:JianLiao/CLIP-ViT-L-14-spectrum-icons-20k"
)

tokenizer = tokenizer("ViT-L-14")

# 示例：文本到图像检索
text_inputs = tokenizer(["a description of the image", "another description of the image"])
image = preprocess("/path/to/image.png").unsqueeze(0)

with torch.no_grad():
    logits_per_image, logits_per_text = model(image, text_inputs)
    probs = logits_per_image.softmax(dim=-1).numpy()

✨ 主要特性

直接用途

零样本图像分类。
文本到图像以及图像到图像的检索。
在抽象视觉上下文中改善文本 - 图像对齐。

下游用途

针对特定领域的图像 - 文本检索任务进行微调。
集成到需要增强语义搜索的应用程序中。

📦 安装指南

文档中未提及具体安装命令，跳过此章节。

💻 使用示例

基础用法

from open_clip import create_model_and_transforms, tokenizer

model, preprocess = create_model_and_transforms(
    model_name="hf-hub:JianLiao/CLIP-ViT-L-14-spectrum-icons-20k"
)

tokenizer = tokenizer("ViT-L-14")

# 示例：文本到图像检索
text_inputs = tokenizer(["a description of the image", "another description of the image"])
image = preprocess("/path/to/image.png").unsqueeze(0)

with torch.no_grad():
    logits_per_image, logits_per_text = model(image, text_inputs)
    probs = logits_per_image.softmax(dim=-1).numpy()

高级用法

文档中未提及高级用法代码示例，跳过此部分。

📚 详细文档

模型详情

模型描述

这是一个基于LAION预训练的laion/CLIP-ViT-L-14-laion2B-s32B-b82K进行微调的CLIP ViT-L/14模型。使用包含23,000个PNG - 文本描述对的自定义数据集(JianLiao/spectrum-icons)进行微调，以改善文本到图像和图像到文本的检索任务。微调过程使用了OpenCLIP库和NVIDIA GPU，使模型能够更好地处理抽象视觉特征，增强RAG性能。

基础模型最初在LAION - 2B数据集上进行训练，利用自然语言监督来对齐视觉和文本嵌入。本次微调任务旨在使模型进一步适应特定领域，同时保持泛化能力。

训练详情

训练数据

模型在23,000个图像 - 文本描述对上进行了微调。该数据集包含了多样化和抽象的视觉元素，并配有详细的文本描述，以增强模型处理抽象查询和检索任务的能力。

训练过程

微调使用OpenCLIP库在配备6块NVIDIA RTX - 3090 GPU的机器上进行。关键超参数如下：

学习率：5e-6，采用余弦衰减。
批量大小：每块GPU的批量大小为64，全局有效批量大小为384。
训练轮数：40。
精度：混合精度(amp_bf16)以提高效率。
数据增强：
- 颜色抖动：(0.2, 0.2, 0.1, 0.0)，概率为0.7。
- 灰度化概率：0.2。

训练过程中采用了梯度检查点、分布式数据并行(NCCL)，并定期进行零样本性能评估。每个epoch后进行验证。

评估

测试数据、因素和指标

测试数据

模型在从23,000个图像 - 文本对中划分出的验证集上进行评估。针对图像到文本和文本到图像的检索任务计算指标。

指标

K召回率：
- 图像到文本和文本到图像检索的R@1、R@5、R@10。
平均排名和中位数排名：
- 检索中正确匹配的平均和中位数位置。

结果

图像到文本检索：
- R@1：约70.0%
- R@5：约96.0%
- R@10：约97.8%
- 平均排名：约2.24
- 中位数排名：约1.0
文本到图像检索：
- R@1：约70.3%
- R@5：约96.4%
- R@10：约98.1%
- 平均排名：约2.17
- 中位数排名：约1.0

结果表明，视觉和文本嵌入之间具有强大的对齐能力，在两个检索任务上都表现出色。

致谢

预训练基础模型由LAION开发，并在LAION - 2B数据集上进行训练。

引用

BibTeX格式引用如下：

@inproceedings{cherti2023reproducible,
  title={Reproducible scaling laws for contrastive language-image learning},
  author={Cherti, Mehdi and Beaumont, Romain and Wightman, Ross and Wortsman, Mitchell and Ilharco, Gabriel and Gordon, Cade and Schuhmann, Christoph and Schmidt, Ludwig and Jitsev, Jenia},
  booktitle={Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition},
  pages={2818--2829},
  year={2023}
}

OpenAI CLIP论文

@inproceedings{Radford2021LearningTV,
  title={Learning Transferable Visual Models From Natural Language Supervision},
  author={Alec Radford and Jong Wook Kim and Chris Hallacy and A. Ramesh and Gabriel Goh and Sandhini Agarwal and Girish Sastry and Amanda Askell and Pamela Mishkin and Jack Clark and Gretchen Krueger and Ilya Sutskever},
  booktitle={ICML},
  year={2021}
}

OpenCLIP软件

@software{ilharco_gabriel_2021_5143773,
  author       = {Ilharco, Gabriel and
                  Wortsman, Mitchell and
                  Wightman, Ross and
                  Gordon, Cade and
                  Carlini, Nicholas and
                  Taori, Rohan and
                  Dave, Achal and
                  Shankar, Vaishaal and
                  Namkoong, Hongseok and
                  Miller, John and
                  Hajishirzi, Hannaneh and
                  Farhadi, Ali and
                  Schmidt, Ludwig},
  title        = {OpenCLIP},
  month        = jul,
  year         = 2021,
  note         = {If you use this software, please cite it as below.},
  publisher    = {Zenodo},
  version      = {0.1},
  doi          = {10.5281/zenodo.5143773},
  url          = {https://doi.org/10.5281/zenodo.5143773}
}