V

Vitreg4 B16 Mim

由 birder-project 开发
基于掩码图像建模(MIM)预训练的ViT reg4图像编码器,适用于通用特征提取或下游视觉任务
下载量 69
发布时间 : 1/23/2025
模型介绍
内容详情
替代品

模型简介

这是一个采用Vision Transformer架构的图像编码器,通过掩码图像建模方法预训练,可作为通用视觉特征提取器或用于目标检测、分割等下游任务的骨干网络

模型特点

掩码图像建模预训练
采用MAE(Masked Autoencoder)方法进行自监督预训练,学习强大的视觉表示能力
寄存器增强架构
基于ViT reg4架构,包含特殊寄存器token以提升模型性能
多样化训练数据
在包含1100万张多样化图像的数据集上训练,涵盖多个专业领域数据集
通用特征提取
未针对特定任务微调,适合作为各种下游视觉任务的骨干网络

模型能力

图像特征提取
视觉表示学习
迁移学习

使用案例

计算机视觉
鸟类识别
可作为鸟类识别系统的特征提取器
目标检测
作为检测模型的骨干网络
图像分割
作为分割模型的编码器部分