S

Swin Small Patch4 Window7 224

由 microsoft 开发
Swin Transformer是一种基于分层窗口的视觉Transformer模型,专为图像分类任务设计,计算复杂度与输入图像大小呈线性关系。
下载量 2,028
发布时间 : 3/2/2022
模型介绍
内容详情
替代品

模型简介

该模型在ImageNet-1k数据集上以224x224分辨率训练,可作为图像分类和密集识别任务的通用骨干网络。

模型特点

分层窗口注意力机制
通过局部窗口计算自注意力,显著降低计算复杂度,使其与输入图像大小呈线性关系。
层次化特征图
通过合并图像块构建层次化特征图,适合处理不同尺度的视觉信息。
高效计算
相比全局计算自注意力的传统视觉Transformer,计算效率更高。

模型能力

图像分类
视觉特征提取

使用案例

计算机视觉
ImageNet图像分类
将输入图像分类为1000个ImageNet类别之一
在ImageNet-1k数据集上训练
密集识别任务
作为骨干网络支持物体检测、语义分割等任务