S

Swinv2 Base Patch4 Window12to24 192to384 22kto1k Ft

由 microsoft 开发
Swin Transformer v2是一种视觉Transformer模型,通过分层特征图和局部窗口自注意力机制实现高效的图像分类和密集识别任务。
下载量 1,824
发布时间 : 6/16/2022
模型介绍
内容详情
替代品

模型简介

该模型基于ImageNet-21k预训练,并在384x384分辨率下对ImageNet-1k进行微调,可直接用于图像分类任务。

模型特点

分层特征图
通过在深层合并图像块构建分层特征图,适用于不同分辨率的图像处理。
局部窗口自注意力
仅在局部窗口内计算自注意力,计算复杂度与输入图像大小呈线性关系,提高效率。
训练稳定性改进
结合残差后归一化与余弦注意力提升训练稳定性。
高分辨率迁移能力
采用对数间隔连续位置偏置方法,有效将低分辨率预训练模型迁移至高分辨率下游任务。
自监督预训练
引入自监督预训练方法SimMIM,减少对大量标注图像的依赖。

模型能力

图像分类
密集识别

使用案例

图像识别
动物识别
识别图像中的动物类别,如老虎。
准确分类为ImageNet-1k中的1000个类别之一。
物体识别
识别日常物体,如茶壶。
准确分类为ImageNet-1k中的1000个类别之一。
场景识别
识别建筑或自然场景,如宫殿。
准确分类为ImageNet-1k中的1000个类别之一。