S

Swin Large Patch4 Window12 384 In22k

由 microsoft 开发
Swin Transformer是一种基于分层窗口的视觉Transformer模型,在ImageNet-21k数据集上预训练,适用于图像分类任务。
下载量 1,063
发布时间 : 3/2/2022
模型介绍
内容详情
替代品

模型简介

该模型通过在局部窗口内计算自注意力来构建分层特征图,计算复杂度与输入图像大小呈线性关系,适合作为图像分类和密集识别任务的骨干网络。

模型特点

分层窗口注意力机制
通过局部窗口计算自注意力,显著降低计算复杂度,实现线性复杂度与图像大小的关系。
分层特征图构建
在更深层次合并图像块,构建多分辨率特征图,优于传统视觉Transformer的单一低分辨率特征图。
高分辨率支持
支持384x384高分辨率输入,在ImageNet-21k大规模数据集上预训练。

模型能力

图像分类
视觉特征提取
大规模图像识别

使用案例

计算机视觉
通用图像分类
将图像分类为21,841个ImageNet-21k类别之一
视觉骨干网络
可作为下游视觉任务(如目标检测、分割)的特征提取器