许可协议:apache-2.0
标签:
- 视觉
- 图像分类
数据集:
- imagenet-1k
示例展示:
- 图片链接:https://huggingface.co/datasets/mishig/sample_images/resolve/main/tiger.jpg
示例标题:老虎
- 图片链接:https://huggingface.co/datasets/mishig/sample_images/resolve/main/teapot.jpg
示例标题:茶壶
- 图片链接:https://huggingface.co/datasets/mishig/sample_images/resolve/main/palace.jpg
示例标题:宫殿
Swin Transformer v2(基础尺寸模型)
Swin Transformer v2模型在ImageNet-1k数据集上以256x256分辨率进行了预训练。该模型由刘等人提出,论文名为《Swin Transformer V2: Scaling Up Capacity and Resolution》(https://arxiv.org/abs/2111.09883),并首次发布于此代码库。
免责声明:发布Swin Transformer v2的团队未为此模型编写模型卡,因此本模型卡由Hugging Face团队撰写。
模型描述
Swin Transformer是一种视觉Transformer(Vision Transformer)。它通过在更深层次合并图像块(灰色显示)构建分层特征图,并且由于仅在局部窗口(红色显示)内计算自注意力,其计算复杂度与输入图像大小呈线性关系。因此,它可以作为图像分类和密集识别任务的通用骨干网络。相比之下,先前的视觉Transformer生成单一低分辨率的特征图,并且由于全局计算自注意力,其计算复杂度与输入图像大小呈平方关系。
Swin Transformer v2增加了3项主要改进:
- 结合残差后归一化(residual-post-norm)方法和余弦注意力(cosine attention)以提高训练稳定性;
- 采用对数间隔连续位置偏置方法(log-spaced continuous position bias),有效将低分辨率图像预训练的模型迁移到高分辨率输入的下游任务;
- 使用自监督预训练方法SimMIM,减少对大量标注图像的需求。

来源
预期用途与限制
您可以将该原始模型用于图像分类任务。请访问模型中心查找针对您感兴趣任务的微调版本。
使用方法
以下示例展示如何使用该模型将COCO 2017数据集中的一张图像分类为ImageNet的1,000个类别之一:
from transformers import AutoImageProcessor, AutoModelForImageClassification
from PIL import Image
import requests
url = "http://images.cocodataset.org/val2017/000000039769.jpg"
image = Image.open(requests.get(url, stream=True).raw)
processor = AutoImageProcessor.from_pretrained("microsoft/swinv2-base-patch4-window8-256")
model = AutoModelForImageClassification.from_pretrained("microsoft/swinv2-base-patch4-window8-256")
inputs = processor(images=image, return_tensors="pt")
outputs = model(**inputs)
logits = outputs.logits
predicted_class_idx = logits.argmax(-1).item()
print("预测类别:", model.config.id2label[predicted_class_idx])
更多代码示例,请参阅文档。
BibTeX引用信息
@article{DBLP:journals/corr/abs-2111-09883,
author = {Ze Liu and
Han Hu and
Yutong Lin and
Zhuliang Yao and
Zhenda Xie and
Yixuan Wei and
Jia Ning and
Yue Cao and
Zheng Zhang and
Li Dong and
Furu Wei and
Baining Guo},
title = {Swin Transformer {V2:} Scaling Up Capacity and Resolution},
journal = {CoRR},
volume = {abs/2111.09883},
year = {2021},
url = {https://arxiv.org/abs/2111.09883},
eprinttype = {arXiv},
eprint = {2111.09883},
timestamp = {Thu, 02 Dec 2021 15:54:22 +0100},
biburl = {https://dblp.org/rec/journals/corr/abs-2111-09883.bib},
bibsource = {dblp computer science bibliography, https://dblp.org}
}