S

Swin Large Patch4 Window7 224 In22k

由 microsoft 开发
Swin Transformer是一种基于移动窗口的分层视觉Transformer,在ImageNet-21k数据集上预训练,适用于图像分类任务。
下载量 387
发布时间 : 3/2/2022
模型介绍
内容详情
替代品

模型简介

该模型通过在深层合并图像块构建分层特征图,并仅在局部窗口内计算自注意力,实现了与输入图像大小成线性关系的计算复杂度。

模型特点

分层特征图
通过合并图像块构建分层特征图,适合处理不同尺度的视觉信息
局部窗口注意力
仅在局部窗口内计算自注意力,计算复杂度与输入图像大小成线性关系
通用骨干网络
可作为图像分类和密集识别任务的通用骨干网络

模型能力

图像分类
视觉特征提取

使用案例

计算机视觉
ImageNet图像分类
将图像分类为21,841个ImageNet-21k类别之一