M

Mobilevit X Small

由 apple 开发
MobileViT是一种轻量级、低延迟的视觉Transformer模型,结合了CNN和Transformer的优势,适用于移动端设备。
下载量 1,062
发布时间 : 5/30/2022
模型介绍
内容详情
替代品

模型简介

该模型在ImageNet-1k数据集上预训练,用于图像分类任务,具有轻量化和高效的特点。

模型特点

轻量化设计
专为移动端设备优化,参数量仅2.3M,适合资源受限环境部署。
混合架构
结合MobileNetV2的CNN层和Transformer模块,兼具局部和全局特征处理能力。
多尺度训练
训练时采用多尺度采样器(160x160至320x320),增强模型对不同分辨率图像的适应能力。

模型能力

图像分类
视觉特征提取

使用案例

计算机视觉
物体识别
识别图像中的物体类别(如动物、日常用品等)
在ImageNet-1k上达到74.8% top-1准确率
移动端视觉应用
适用于智能手机等移动设备的实时图像分类场景