C

Cvt 21 384 22k

由 microsoft 开发
CvT-21是一种结合卷积和Transformer架构的视觉模型,在ImageNet-22k上预训练并在ImageNet-1k上微调
下载量 134
发布时间 : 4/4/2022
模型介绍
内容详情
替代品

模型简介

该模型通过引入卷积操作改进视觉Transformer,在384x384分辨率下实现高效的图像分类任务

模型特点

卷积与Transformer结合
通过引入卷积操作改进传统视觉Transformer,提升局部特征提取能力
高分辨率处理
支持384x384分辨率的图像输入,适合高精度分类任务
大规模预训练
在ImageNet-22k数据集上进行预训练,具有强大的特征提取能力

模型能力

图像分类
视觉特征提取

使用案例

计算机视觉
物体识别
识别图像中的物体类别(如动物、日常用品等)
可准确分类ImageNet-1k中的1000个类别
场景分类
对复杂场景进行分类(如自然风景、建筑等)