S

Swin Tiny Patch4 Window7 224

由 microsoft 开发
Swin Transformer是一种分层视觉Transformer,通过局部窗口计算自注意力实现线性计算复杂度,适合图像分类任务。
下载量 98.00k
发布时间 : 3/2/2022
模型介绍
内容详情
替代品

模型简介

该模型是基于Swin Transformer架构的微型版本,在ImageNet-1k数据集上训练,用于图像分类任务。它采用分层设计和移位窗口机制,有效降低了计算复杂度。

模型特点

分层设计
通过深层合并图像块构建分层特征图,适合处理不同尺度的视觉特征
移位窗口机制
仅在局部窗口内计算自注意力,使计算复杂度与输入图像大小呈线性关系
高效计算
相比传统视觉Transformer,显著降低了计算复杂度,同时保持高性能

模型能力

图像分类
视觉特征提取

使用案例

计算机视觉
通用图像分类
将输入图像分类为1000个ImageNet类别之一
在ImageNet-1k数据集上达到良好性能
视觉特征提取
作为骨干网络提取图像特征,用于下游视觉任务