S

Swin Large Patch4 Window12 384

由 microsoft 开发
Swin Transformer是一种基于移位窗口的分层视觉Transformer模型,专为图像分类任务设计。
下载量 22.77k
发布时间 : 3/2/2022
模型介绍
内容详情
替代品

模型简介

该模型在ImageNet-1k数据集上以384x384分辨率训练,通过局部窗口计算自注意力机制,实现线性计算复杂度,适合作为图像分类和密集识别任务的骨干网络。

模型特点

分层特征图
通过合并深层图像块构建分层特征图,增强模型对不同尺度特征的捕捉能力。
局部窗口自注意力
仅在局部窗口内计算自注意力机制,使计算复杂度与输入图像大小呈线性关系,提高效率。
高分辨率处理
支持384x384高分辨率图像输入,适合精细图像分类任务。

模型能力

图像分类
视觉特征提取

使用案例

计算机视觉
ImageNet图像分类
将图像分类为1000个ImageNet类别之一。
高准确率的分类效果(具体指标未提供)。