MobileCLIP-B-LT-OpenCLIP开源图文模型 - 苹果出品快速零样本图像分类优同类

Mobileclip B LT OpenCLIP

由 apple 开发

MobileCLIP-B (LT)是苹果公司推出的高效图文模型，通过多模态强化训练实现快速零样本图像分类，性能优于同类模型。

下载量 774

发布时间 : 6/7/2024

模型简介

MobileCLIP是一种快速图文模型，专门设计用于零样本图像分类任务，通过优化的架构和训练方法实现高效性能。

高效性能

在保持高性能的同时显著提升速度，比同类模型快2-5倍

小体积

模型体积比同类ViT-B/16模型小2-3倍

强化训练

采用多模态强化训练方法，使用36B训练样本

零样本能力

专为零样本图像分类任务优化，无需特定任务微调

零样本图像分类

多模态理解

快速推理

计算机视觉

图像分类

无需特定训练即可对图像进行分类

在ImageNet-1k上达到77.2%的零样本准确率

多模态检索

实现图文跨模态检索

移动应用

移动端图像识别

适合部署在移动设备上的轻量级图像识别

低延迟（图像10.4ms+文本3.3ms）

模型	所见样本数量（B）	参数数量（M）（图像 + 文本）	延迟（ms）（图像 + 文本）	ImageNet - 1k零样本Top - 1准确率（%）	38个数据集上的平均性能（%）
[MobileCLIP - S0](https://hf.co/pcuenq/MobileCLIP - S0)	13	11.4 + 42.4	1.5 + 1.6	67.8	58.1
[MobileCLIP - S1](https://hf.co/pcuenq/MobileCLIP - S1)	13	21.5 + 63.4	2.5 + 3.3	72.6	61.3
[MobileCLIP - S2](https://hf.co/pcuenq/MobileCLIP - S2)	13	35.7 + 63.4	3.6 + 3.3	74.4	63.7
[MobileCLIP - B](https://hf.co/pcuenq/MobileCLIP - B)	13	86.3 + 63.4	10.4 + 3.3	76.8	65.2
[MobileCLIP - B (LT)](https://hf.co/pcuenq/MobileCLIP - B - LT)	36	86.3 + 63.4	10.4 + 3.3	77.2	65.8