S

Swin Base Patch4 Window12 384 In22k

由 microsoft 开发
Swin Transformer是一种基于移位窗口的分层视觉Transformer模型,专为图像分类任务设计。
下载量 2,431
发布时间 : 3/2/2022
模型介绍
内容详情
替代品

模型简介

该模型在ImageNet-21k数据集上预训练,采用分层特征图和局部窗口自注意力机制,显著降低了计算复杂度。

模型特点

分层特征图
通过合并深层图像块构建分层特征图,适合处理不同尺度的视觉信息。
局部窗口自注意力
仅在局部窗口内计算自注意力,计算复杂度与输入图像尺寸成线性关系。
高效架构
相比传统视觉Transformer,显著降低了计算复杂度,适合作为通用骨干网络。

模型能力

图像分类
视觉特征提取

使用案例

计算机视觉
通用图像分类
将输入图像分类为ImageNet-21k数据集的21,841个类别之一。
密集识别任务
可作为目标检测、语义分割等密集识别任务的骨干网络。