C

Cvt 21 384

由 microsoft 开发
CvT-21是基于卷积视觉变换器架构的图像分类模型,在ImageNet-1k数据集上以384x384分辨率预训练。
下载量 29
发布时间 : 4/4/2022
模型介绍
内容详情
替代品

模型简介

该模型结合了卷积神经网络和视觉变换器的优势,用于图像分类任务,能够将图像分类为1,000个ImageNet类别。

模型特点

卷积与变换器结合
将卷积操作引入视觉变换器架构,兼具CNN的局部特征提取能力和Transformer的全局建模能力
高分辨率处理
支持384x384高分辨率图像输入,能捕捉更精细的图像特征
高效计算
通过卷积操作降低计算复杂度,相比纯Transformer架构更高效

模型能力

图像分类
视觉特征提取

使用案例

计算机视觉
物体识别
识别图像中的物体类别
可准确分类1,000种常见物体
场景理解
分析图像场景内容
能识别自然场景、室内环境等多种场景