P

Pvt Medium 224

由 Xrenya 开发
PVT是一种基于Transformer的视觉模型,采用金字塔结构处理图像,在ImageNet-1K上预训练,适用于图像分类任务。
下载量 13
发布时间 : 3/27/2023
模型介绍
内容详情
替代品

模型简介

该模型是一种无需卷积的视觉Transformer架构,通过渐进式金字塔结构减少计算量,主要用于图像分类任务。

模型特点

金字塔结构设计
采用渐进式缩小金字塔结构,有效减少对大特征图的计算量
无卷积架构
完全基于Transformer编码器,不依赖传统卷积操作
全局上下文建模
通过[CLS]标记捕获图像全局特征表示

模型能力

图像分类
特征提取

使用案例

计算机视觉
通用图像分类
将图像分类为1000个ImageNet类别
在ImageNet-1K数据集上表现良好
下游任务特征提取
作为骨干网络为其他视觉任务提供特征