M

Mobilevit Xx Small

由 apple 开发
MobileViT是一种轻量级、低延迟的视觉Transformer模型,结合了CNN和Transformer的优势,适合移动设备使用。
下载量 6,077
发布时间 : 5/30/2022
模型介绍
内容详情
替代品

模型简介

该模型在ImageNet-1k数据集上进行了预训练,可用于图像分类任务。它结合了MobileNetV2风格的层与Transformer模块,实现了高效的图像处理。

模型特点

轻量级设计
模型参数量仅1.3M,适合移动设备和资源受限环境
混合架构
结合了CNN的局部特征提取能力和Transformer的全局建模能力
无需位置编码
相比传统ViT模型,MobileViT不需要位置嵌入
多尺度训练
训练时采用多尺度采样策略,增强了模型的适应性

模型能力

图像分类
视觉特征提取

使用案例

计算机视觉
通用图像分类
将图像分类为ImageNet-1k中的1000个类别
Top-1准确率69.0%,Top-5准确率88.9%
移动端视觉应用
适用于智能手机等移动设备上的实时图像识别