R

Rope Vit Reg4 B14 Capi Imagenet21k

由 birder-project 开发
采用RoPE的ViT图像分类模型,经过CAPI预训练和ImageNet-21K微调,适用于图像分类和检测任务。
下载量 40
发布时间 : 5/10/2025
模型介绍
内容详情
替代品

模型简介

该模型是一个基于Vision Transformer (ViT)架构的图像分类模型,采用了旋转位置编码(RoPE)技术。通过两阶段训练流程(CAPI预训练和ImageNet-21K微调)优化性能,支持图像分类、特征提取和检测任务。

模型特点

旋转位置编码(RoPE)
采用EVA风格的旋转位置编码,支持不同分辨率输入时的灵活配置,优化模型表现。
两阶段训练流程
先进行CAPI预训练,然后在ImageNet-21K数据集上微调,提升模型性能。
多任务支持
不仅支持图像分类,还可用于特征提取和目标检测任务。

模型能力

图像分类
特征提取
目标检测

使用案例

计算机视觉
鸟类识别
利用该模型进行鸟类图像分类和识别。
图像特征提取
提取图像特征用于下游任务,如图像检索或相似度计算。
目标检测
作为骨干网络用于目标检测任务。