MobileCLIP-S2开源图文模型 - 小体积零样本性能好，多模态训练实现快速推理

Mobileclip S2 Timm

由 apple 开发

MobileCLIP-S2是一种高效的图文模型，通过多模态强化训练实现快速推理，在保持较小体积的同时提供卓越的零样本性能。

下载量 147

发布时间 : 6/6/2024

模型简介

MobileCLIP-S2是MobileCLIP系列中的中等规模变体，专为快速图文匹配任务设计，适用于需要高效多模态理解的场景。

高效性能

在保持较小体积的同时，提供与大型模型相当的零样本性能

快速推理

图像处理仅需3.6ms，文本处理仅需3.3ms，适合实时应用

多模态强化训练

通过特殊训练方法提升图文匹配能力

轻量化设计

模型体积显著小于同类ViT-B/16模型

零样本图像分类

图文匹配

多模态理解

快速推理

图像检索

基于文本的图像搜索

使用自然语言描述检索相关图像

高精度匹配结果

内容审核

图文一致性检查

验证图像内容与描述文本是否匹配

高效识别不匹配内容

智能相册

自动图像分类

根据语义内容自动组织相册

无需训练数据的准确分类

模型	所见样本数（B）	参数数量（M）（图像 + 文本）	延迟（ms）（图像 + 文本）	ImageNet - 1k零样本Top - 1准确率（%）	38个数据集上的平均性能（%）
[MobileCLIP - S0](https://hf.co/pcuenq/MobileCLIP - S0)	13	11.4 + 42.4	1.5 + 1.6	67.8	58.1
[MobileCLIP - S1](https://hf.co/pcuenq/MobileCLIP - S1)	13	21.5 + 63.4	2.5 + 3.3	72.6	61.3
[MobileCLIP - S2](https://hf.co/pcuenq/MobileCLIP - S2)	13	35.7 + 63.4	3.6 + 3.3	74.4	63.7
[MobileCLIP - B](https://hf.co/pcuenq/MobileCLIP - B)	13	86.3 + 63.4	10.4 + 3.3	76.8	65.2
[MobileCLIP - B (LT)](https://hf.co/pcuenq/MobileCLIP - B - LT)	36	86.3 + 63.4	10.4 + 3.3	77.2	65.8