S

Swinv2 Tiny Patch4 Window16 256

由 microsoft 开发
Swin Transformer v2 是一种视觉Transformer模型,通过分层特征图和局部窗口自注意力机制实现高效的图像分类。
下载量 403.69k
发布时间 : 6/14/2022
模型介绍
内容详情
替代品

模型简介

该模型在ImageNet-1k数据集上以256x256分辨率进行了预训练,适用于图像分类任务。通过残差后归一化和余弦注意力机制提高训练稳定性,支持从低分辨率到高分辨率输入的迁移学习。

模型特点

分层特征图
通过合并图像块构建分层特征图,适用于不同分辨率的图像处理。
局部窗口自注意力
仅在局部窗口内计算自注意力,计算复杂度与输入图像大小呈线性关系,提高效率。
训练稳定性改进
采用残差后归一化方法和余弦注意力机制,显著提高训练稳定性。
迁移学习支持
通过对数间隔连续位置偏置方法,支持从低分辨率到高分辨率输入的迁移学习。

模型能力

图像分类
视觉特征提取

使用案例

计算机视觉
ImageNet图像分类
将图像分类为1000个ImageNet类别之一。
高准确率的图像分类结果。