S

Swinv2 Tiny Patch4 Window8 256

由 microsoft 开发
Swin Transformer v2是基于ImageNet-1k预训练的视觉Transformer模型,采用分层特征图和局部窗口自注意力机制,具有线性计算复杂度。
下载量 25.04k
发布时间 : 6/14/2022
模型介绍
内容详情
替代品

模型简介

该模型是Swin Transformer v2的微型版本,专为图像分类任务设计,在256x256分辨率下预训练,可作为计算机视觉任务的通用骨干网络。

模型特点

分层特征图
通过合并深层图像块构建分层特征图,适合不同尺度的视觉任务
局部窗口自注意力
仅在局部窗口内计算自注意力,实现与输入图像大小的线性计算复杂度
残差后归一化
采用残差后归一化结合余弦注意力,提升训练稳定性
位置偏置迁移
使用对数间隔连续位置偏置方法,有效迁移低分辨率预训练模型至高分辨率任务

模型能力

图像分类
视觉特征提取
计算机视觉任务骨干网络

使用案例

计算机视觉
图像分类
将输入图像分类为1000个ImageNet类别之一
在ImageNet-1k数据集上表现良好
视觉特征提取
作为其他计算机视觉任务的预训练特征提取器
可用于目标检测、语义分割等下游任务