S

Swinv2 Large Patch4 Window12to24 192to384 22kto1k Ft

由 microsoft 开发
Swin Transformer v2是基于ImageNet-21k预训练并在384x384分辨率下对ImageNet-1k进行微调的视觉Transformer模型,具有分层特征图和局部窗口自注意力机制。
下载量 3,048
发布时间 : 6/16/2022
模型介绍
内容详情
替代品

模型简介

该模型主要用于图像分类任务,通过构建分层特征图和局部窗口自注意力机制,有效降低计算复杂度,适用于各种视觉识别任务。

模型特点

分层特征图
通过在更深层合并图像块构建分层特征图,适用于不同分辨率的图像处理。
局部窗口自注意力
仅在局部窗口内计算自注意力,计算复杂度与输入图像大小呈线性关系,提高效率。
训练稳定性改进
结合残差后归一化与余弦注意力,提高训练稳定性。
高分辨率迁移能力
采用对数间隔连续位置偏置方法,有效将低分辨率预训练模型迁移至高分辨率输入任务。
自监督预训练
引入SimMIM自监督预训练方法,减少对大量标注图像的需求。

模型能力

图像分类
视觉特征提取
高分辨率图像处理

使用案例

通用图像分类
ImageNet分类
将图像分类为1000个ImageNet类别之一。
高准确率的图像分类能力。
视觉识别
物体识别
识别图像中的特定物体,如动物、日常用品等。
准确识别多种常见物体。