C

Cvt W24 384 22k

由 microsoft 开发
CvT-w24是基于ImageNet-22k预训练并在384x384分辨率下微调的视觉变换器模型,通过引入卷积改进传统视觉变换器。
下载量 66
发布时间 : 5/18/2022
模型介绍
内容详情
替代品

模型简介

该模型结合了卷积神经网络和视觉变换器的优势,用于图像分类任务,特别适合处理高分辨率图像。

模型特点

卷积增强的视觉变换器
通过引入卷积操作改进传统视觉变换器,提升局部特征提取能力
高分辨率支持
专为384x384分辨率图像优化,适合处理高质量视觉数据
两阶段训练
先在ImageNet-22k大规模数据集预训练,再在ImageNet-1k微调

模型能力

图像分类
视觉特征提取
高分辨率图像处理

使用案例

计算机视觉
物体识别
识别图像中的物体类别(如动物、日常用品等)
可准确分类ImageNet-1k中的1000个类别
场景理解
分析复杂场景中的主要元素
能识别建筑、自然景观等高级语义内容