S

Swinv2 Base Patch4 Window16 256

由 microsoft 开发
Swin Transformer v2是一种视觉Transformer模型,通过分层特征图和局部窗口自注意力机制实现高效的图像分类和密集识别任务。
下载量 1,853
发布时间 : 6/15/2022
模型介绍
内容详情
替代品

模型简介

该模型在ImageNet-1k数据集上以256x256分辨率进行了预训练,适用于图像分类任务。采用了残差后归一化、对数间隔连续位置偏置和自监督预训练方法SimMIM等改进技术。

模型特点

分层特征图
通过在更深层合并图像块构建分层特征图,提高特征提取效率。
局部窗口自注意力
仅在局部窗口内计算自注意力,使计算复杂度与输入图像大小呈线性关系。
残差后归一化与余弦注意力
提高训练稳定性。
对数间隔连续位置偏置
有效将低分辨率图像预训练的模型迁移到高分辨率输入的下游任务。
自监督预训练方法SimMIM
减少对大量标注图像的需求。

模型能力

图像分类
密集识别任务

使用案例

图像识别
动物识别
识别图像中的动物种类,如老虎。
物体识别
识别日常物品,如茶壶。
场景识别
识别建筑或自然场景,如宫殿。