pvt-tiny-224开源图像分类模型 - 免费部署精准完成图像分类任务

首页

Pvt Tiny 224

由 Xrenya 开发

金字塔视觉变换器（PVT）是一种基于变换器架构的视觉模型，专为图像分类任务设计。

图像分类

Transformers

开源协议:Apache-2.0 #图像分类 #金字塔结构 #无卷积骨干

下载量 25

发布时间 : 3/25/2023

模型简介

该模型在ImageNet-1K数据集上进行了预训练和微调，能够将图像分类为1000个类别。它采用金字塔结构减少计算量，适合密集预测任务。

模型特点

金字塔结构

采用渐进式缩小金字塔减少计算量，提高对大特征图的处理效率

变换器编码器

基于变换器架构，通过自注意力机制捕捉图像全局信息

CLS标记分类

使用[CLS]标记作为图像整体表示，便于分类任务

模型能力

图像分类

特征提取

使用案例

计算机视觉

图像分类

将输入图像分类为1000个ImageNet类别

在ImageNet-1K数据集上表现良好

特征提取

提取图像特征用于下游任务

🚀 金字塔视觉变换器（微小尺寸模型）

金字塔视觉变换器（PVT）是一种基于Transformer架构的模型，它在图像分类任务中表现出色。该模型在ImageNet - 1K数据集上进行预训练，并在ImageNet 2012数据集上进行微调，能够有效学习图像的内在表示，为下游任务提供强大的特征提取能力。

🚀 快速开始

金字塔视觉变换器（PVT）模型在ImageNet - 1K（100万张图像，1000个类别）上以224x224的分辨率进行预训练，并在ImageNet 2012（100万张图像，1000个类别）上以224x224的分辨率进行微调。它由Wenhai Wang、Enze Xie、Xiang Li、Deng - Ping Fan、Kaitao Song、Ding Liang、Tong Lu、Ping Luo、Ling Shao等人在论文《Pyramid Vision Transformer: A Versatile Backbone for Dense Prediction without Convolutions》中提出，并首次在此仓库发布。

声明：发布PVT的团队并未为此模型编写模型卡片，此模型卡片由Rinat S. [@Xrenya]编写。

✨ 主要特性

模型描述

金字塔视觉变换器（PVT）是一种类似于BERT的Transformer编码器模型，在ImageNet - 1k（也称为ILSVRC2012）数据集上进行预训练，该数据集包含100万张图像和1000个类别，图像分辨率为224x224。

模型将图像以可变大小的图像块序列形式输入，并进行线性嵌入。与ViT模型不同的是，PVT使用渐进式收缩金字塔来减少每个阶段大型特征图的计算量。同时，会在序列开头添加一个[CLS]标记用于分类任务，并在将序列输入到Transformer编码器层之前添加绝对位置嵌入。

通过预训练，模型学习到图像的内在表示，可用于提取对下游任务有用的特征。例如，如果有一个带标签的图像数据集，可以在预训练编码器的基础上添加一个线性层来训练一个标准分类器，通常会在[CLS]标记上添加线性层，因为该标记的最后隐藏状态可视为整个图像的表示。

预期用途和限制

可以使用该原始模型进行图像分类。可在模型中心查找针对感兴趣任务的微调版本。

📦 安装指南

文档未提及安装步骤，故跳过该章节。

💻 使用示例

基础用法

以下是如何使用该模型将COCO 2017数据集中的图像分类为1000个ImageNet类别之一的示例：

from transformers import PvtImageProcessor, PvtForImageClassification
from PIL import Image
import requests

url = 'http://images.cocodataset.org/val2017/000000039769.jpg'
image = Image.open(requests.get(url, stream=True).raw)

processor = PvtImageProcessor.from_pretrained('Zetatech/pvt-tiny-224')
model = PvtForImageClassification.from_pretrained('Zetatech/pvt-tiny-224')

inputs = processor(images=image, return_tensors="pt")
outputs = model(**inputs)
logits = outputs.logits
# 模型预测1000个ImageNet类别之一
predicted_class_idx = logits.argmax(-1).item()
print("Predicted class:", model.config.id2label[predicted_class_idx])

更多代码示例请参考文档。

📚 详细文档

训练数据

ViT模型在ImageNet - 1k数据集上进行预训练，该数据集包含100万张图像和1000个类别。

训练过程

预处理

训练/验证期间图像预处理的确切细节可在此处找到。

图像会被调整大小/缩放至相同的分辨率（224x224），并在RGB通道上进行归一化，均值为(0.485, 0.456, 0.406)，标准差为(0.229, 0.224, 0.225)。

BibTeX引用和引用信息

@inproceedings{wang2021pyramid,
  title={Pyramid vision transformer: A versatile backbone for dense prediction without convolutions},
  author={Wang, Wenhai and Xie, Enze and Li, Xiang and Fan, Deng-Ping and Song, Kaitao and Liang, Ding and Lu, Tong and Luo, Ping and Shao, Ling},
  booktitle={Proceedings of the IEEE/CVF International Conference on Computer Vision},
  pages={568--578},
  year={2021}
}