S

Swin Large Patch4 Window7 224

由 microsoft 开发
Swin Transformer是一种层次化视觉Transformer,通过局部窗口计算自注意力实现线性计算复杂度,适合图像分类和密集识别任务。
下载量 2,079
发布时间 : 3/2/2022
模型介绍
内容详情
替代品

模型简介

该模型是基于Swin Transformer架构的大尺寸视觉模型,在ImageNet-1k数据集上以224x224分辨率训练而成,可用于图像分类任务。

模型特点

层次化特征图
通过合并图像块构建层次化特征图,适合处理不同尺度的视觉信息
局部窗口注意力
仅在局部窗口内计算自注意力,使计算复杂度与输入图像大小呈线性关系
高效架构
相比传统视觉Transformer,计算效率更高,适合作为通用骨干网络

模型能力

图像分类
视觉特征提取

使用案例

计算机视觉
图像分类
将输入图像分类为ImageNet的1,000个类别之一
在ImageNet-1k数据集上表现优异
视觉特征提取
作为骨干网络提取图像特征,用于下游视觉任务