pvt-medium-224开源视觉模型 - 免费部署实现高效图像分类任务

首页

Pvt Medium 224

由 Xrenya 开发

PVT是一种基于Transformer的视觉模型，采用金字塔结构处理图像，在ImageNet-1K上预训练，适用于图像分类任务。

图像分类

Transformers

开源协议:Apache-2.0 #金字塔结构Transformer #密集预测骨干网络 #ImageNet分类

下载量 13

发布时间 : 3/27/2023

模型简介

该模型是一种无需卷积的视觉Transformer架构，通过渐进式金字塔结构减少计算量，主要用于图像分类任务。

模型特点

金字塔结构设计

采用渐进式缩小金字塔结构，有效减少对大特征图的计算量

无卷积架构

完全基于Transformer编码器，不依赖传统卷积操作

全局上下文建模

通过[CLS]标记捕获图像全局特征表示

模型能力

图像分类

特征提取

使用案例

计算机视觉

通用图像分类

将图像分类为1000个ImageNet类别

在ImageNet-1K数据集上表现良好

下游任务特征提取

作为骨干网络为其他视觉任务提供特征

🚀 金字塔视觉变换器（中等规模模型）

金字塔视觉变换器（PVT）是一种在图像分类领域表现出色的模型。它在大规模图像数据集上进行预训练和微调，能够学习到图像的内在特征，可用于各种图像分类任务，为图像识别提供了强大的支持。

🚀 快速开始

金字塔视觉变换器（PVT）模型在 ImageNet - 1K（100 万张图像，1000 个类别）上以 224x224 的分辨率进行了预训练，并在 ImageNet 2012（100 万张图像，1000 个类别）上以 224x224 的分辨率进行了微调。它由 Wenhai Wang、Enze Xie 等人在论文 Pyramid Vision Transformer: A Versatile Backbone for Dense Prediction without Convolutions 中提出，并首次在此仓库发布。

需要说明的是，发布 PVT 的团队并未为此模型编写模型卡片，此模型卡片由 Rinat S. [@Xrenya] 编写。

✨ 主要特性

模型描述

金字塔视觉变换器（PVT）是一种基于 Transformer 编码器的模型（类似 BERT），在 ImageNet - 1k（也称为 ILSVRC2012）上进行了预训练。该数据集包含 100 万张图像和 1000 个类别，图像分辨率为 224x224。

模型将图像以可变大小的图像块序列形式输入，并进行线性嵌入。与 ViT 模型不同，PVT 使用渐进式收缩金字塔来减少每个阶段大特征图的计算量。同时，在序列开头添加 [CLS] 标记用于分类任务，并在将序列输入到 Transformer 编码器层之前添加绝对位置嵌入。

通过预训练，模型学习到图像的内在表示，可用于提取对下游任务有用的特征。例如，如果有一个带标签的图像数据集，可以在预训练编码器的基础上添加一个线性层来训练一个标准分类器。通常在 [CLS] 标记上添加一个线性层，因为该标记的最后隐藏状态可以看作是整个图像的表示。

预期用途和限制

可以使用原始模型进行图像分类。您可以在模型中心查找针对您感兴趣的任务进行微调的版本。

📦 安装指南

文档未提及安装步骤，此处跳过。

💻 使用示例

基础用法

以下是如何使用此模型将 COCO 2017 数据集中的图像分类为 1000 个 ImageNet 类别之一的示例：

from transformers import PvtImageProcessor, PvtForImageClassification
from PIL import Image
import requests

url = 'http://images.cocodataset.org/val2017/000000039769.jpg'
image = Image.open(requests.get(url, stream=True).raw)

processor = PvtImageProcessor.from_pretrained('Zetatech/pvt-medium-224')
model = PvtForImageClassification.from_pretrained('Zetatech/pvt-medium-224')

inputs = processor(images=image, return_tensors="pt")
outputs = model(**inputs)
logits = outputs.logits
# 模型预测 1000 个 ImageNet 类别之一
predicted_class_idx = logits.argmax(-1).item()
print("Predicted class:", model.config.id2label[predicted_class_idx])

更多代码示例请参考文档。

📚 详细文档

训练数据

ViT 模型在 ImageNet - 1k 上进行了预训练，该数据集包含 100 万张图像和 1000 个类别。

训练过程

预处理

训练/验证期间图像预处理的确切细节可在此处找到。

图像会被调整大小/缩放至相同分辨率（224x224），并在 RGB 通道上以均值（0.485, 0.456, 0.406）和标准差（0.229, 0.224, 0.225）进行归一化。

BibTeX 引用和引用信息

@inproceedings{wang2021pyramid,
  title={Pyramid vision transformer: A versatile backbone for dense prediction without convolutions},
  author={Wang, Wenhai and Xie, Enze and Li, Xiang and Fan, Deng - Ping and Song, Kaitao and Liang, Ding and Lu, Tong and Luo, Ping and Shao, Ling},
  booktitle={Proceedings of the IEEE/CVF International Conference on Computer Vision},
  pages={568--578},
  year={2021}
}