P

Pvt Tiny 224

由 Xrenya 开发
金字塔视觉变换器(PVT)是一种基于变换器架构的视觉模型,专为图像分类任务设计。
下载量 25
发布时间 : 3/25/2023
模型介绍
内容详情
替代品

模型简介

该模型在ImageNet-1K数据集上进行了预训练和微调,能够将图像分类为1000个类别。它采用金字塔结构减少计算量,适合密集预测任务。

模型特点

金字塔结构
采用渐进式缩小金字塔减少计算量,提高对大特征图的处理效率
变换器编码器
基于变换器架构,通过自注意力机制捕捉图像全局信息
CLS标记分类
使用[CLS]标记作为图像整体表示,便于分类任务

模型能力

图像分类
特征提取

使用案例

计算机视觉
图像分类
将输入图像分类为1000个ImageNet类别
在ImageNet-1K数据集上表现良好
特征提取
提取图像特征用于下游任务