C

Cvt 13 384 22k

由 microsoft 开发
CvT-13是一种结合卷积和Transformer的视觉模型,在ImageNet-22k上预训练并在ImageNet-1k上微调,适用于图像分类任务。
下载量 508
发布时间 : 4/4/2022
模型介绍
内容详情
替代品

模型简介

该模型通过引入卷积操作改进视觉Transformer,在384x384分辨率下实现高效图像分类,支持ImageNet的1,000个类别识别。

模型特点

卷积与Transformer结合
通过卷积操作改进传统视觉Transformer,提升局部特征提取能力。
高分辨率处理
支持384x384分辨率输入,适合精细图像分类。
大规模预训练
在ImageNet-22k数据集上预训练,具有强大的特征表示能力。

模型能力

图像分类
视觉特征提取

使用案例

计算机视觉
物体识别
识别图像中的物体类别(如动物、日常用品等)
可准确分类ImageNet的1,000个类别
场景理解
分析图像场景内容(如自然风景、建筑等)