S

Swin Base Patch4 Window7 224 In22k

由 microsoft 开发
Swin Transformer是一种基于分层窗口计算的视觉Transformer模型,在ImageNet-21k数据集上预训练,适用于图像分类任务。
下载量 13.30k
发布时间 : 3/2/2022
模型介绍
内容详情
替代品

模型简介

该模型通过在局部窗口内计算自注意力来构建分层特征图,计算复杂度与输入图像大小呈线性关系,适合作为图像分类和密集识别任务的通用骨干网络。

模型特点

分层特征图
通过在更深层次合并图像块来构建分层特征图,提高特征提取能力
局部窗口注意力
仅在局部窗口内计算自注意力,使计算复杂度与输入图像大小呈线性关系
高效计算
相比全局计算自注意力的传统视觉Transformer,计算效率更高

模型能力

图像分类
视觉特征提取

使用案例

计算机视觉
通用图像分类
将图像分类为ImageNet-21k数据集中的21,841个类别之一
视觉特征提取
作为骨干网络为其他视觉任务提供特征表示