Swinv2-tiny-patch4-window8-256开源视觉模型 - 预训练助力图像高效处理

首页

Swinv2 Tiny Patch4 Window8 256

由 microsoft 开发

Swin Transformer v2是基于ImageNet-1k预训练的视觉Transformer模型，采用分层特征图和局部窗口自注意力机制，具有线性计算复杂度。

图像分类

Transformers

开源协议:Apache-2.0 #分层视觉Transformer #高分辨率图像分类 #残差后归一化

下载量 25.04k

发布时间 : 6/14/2022

模型简介

该模型是Swin Transformer v2的微型版本，专为图像分类任务设计，在256x256分辨率下预训练，可作为计算机视觉任务的通用骨干网络。

模型特点

分层特征图

通过合并深层图像块构建分层特征图，适合不同尺度的视觉任务

局部窗口自注意力

仅在局部窗口内计算自注意力，实现与输入图像大小的线性计算复杂度

残差后归一化

采用残差后归一化结合余弦注意力，提升训练稳定性

位置偏置迁移

使用对数间隔连续位置偏置方法，有效迁移低分辨率预训练模型至高分辨率任务

模型能力

图像分类

视觉特征提取

计算机视觉任务骨干网络

使用案例

计算机视觉

图像分类

将输入图像分类为1000个ImageNet类别之一

在ImageNet-1k数据集上表现良好

视觉特征提取

作为其他计算机视觉任务的预训练特征提取器

可用于目标检测、语义分割等下游任务

🚀 Swin Transformer v2 (微型模型)

Swin Transformer v2模型在分辨率为256x256的ImageNet - 1k数据集上进行了预训练。它由Liu等人在论文 Swin Transformer V2: Scaling Up Capacity and Resolution 中提出，并首次在此仓库中发布。

免责声明：发布Swin Transformer v2的团队并未为此模型编写模型卡片，此模型卡片由Hugging Face团队编写。

🚀 快速开始

你可以使用这个原始模型进行图像分类。前往模型中心查找你感兴趣的任务的微调版本。

✨ 主要特性

Swin Transformer是一种视觉Transformer。它通过在更深的层中合并图像块（灰色部分所示）来构建分层特征图，并且由于仅在每个局部窗口（红色部分所示）内计算自注意力，因此对输入图像大小具有线性计算复杂度。因此，它可以作为图像分类和密集识别任务的通用主干网络。相比之下，以前的视觉Transformer生成单一低分辨率的特征图，并且由于全局计算自注意力，对输入图像大小具有二次计算复杂度。
Swin Transformer v2进行了3项主要改进：1）结合余弦注意力的残差后归一化方法，以提高训练稳定性；2）对数间隔连续位置偏差方法，以有效地将使用低分辨率图像预训练的模型迁移到高分辨率输入的下游任务；3）自监督预训练方法SimMIM，以减少对大量标记图像的需求。

模型图像

来源

💻 使用示例

基础用法

以下是如何使用此模型将COCO 2017数据集中的图像分类为1000个ImageNet类别之一的示例：

from transformers import AutoImageProcessor, AutoModelForImageClassification
from PIL import Image
import requests

url = "http://images.cocodataset.org/val2017/000000039769.jpg"
image = Image.open(requests.get(url, stream=True).raw)

processor = AutoImageProcessor.from_pretrained("microsoft/swinv2-tiny-patch4-window8-256")
model = AutoModelForImageClassification.from_pretrained("microsoft/swinv2-tiny-patch4-window8-256")

inputs = processor(images=image, return_tensors="pt")
outputs = model(**inputs)
logits = outputs.logits
# model predicts one of the 1000 ImageNet classes
predicted_class_idx = logits.argmax(-1).item()
print("Predicted class:", model.config.id2label[predicted_class_idx])

更多代码示例，请参考文档。

📚 详细文档

预期用途和限制

可以使用原始模型进行图像分类。可在模型中心查找感兴趣任务的微调版本。

BibTeX引用

@article{DBLP:journals/corr/abs-2111-09883,
  author    = {Ze Liu and
               Han Hu and
               Yutong Lin and
               Zhuliang Yao and
               Zhenda Xie and
               Yixuan Wei and
               Jia Ning and
               Yue Cao and
               Zheng Zhang and
               Li Dong and
               Furu Wei and
               Baining Guo},
  title     = {Swin Transformer {V2:} Scaling Up Capacity and Resolution},
  journal   = {CoRR},
  volume    = {abs/2111.09883},
  year      = {2021},
  url       = {https://arxiv.org/abs/2111.09883},
  eprinttype = {arXiv},
  eprint    = {2111.09883},
  timestamp = {Thu, 02 Dec 2021 15:54:22 +0100},
  biburl    = {https://dblp.org/rec/journals/corr/abs-2111-09883.bib},
  bibsource = {dblp computer science bibliography, https://dblp.org}
}