V

Vit Small Patch14 Reg4 Dinov2.lvd142m

由 timm 开发
一种带有寄存器的视觉Transformer(ViT)图像特征模型,采用自监督DINOv2方法在LVD-142M数据集上预训练。
下载量 15.98k
发布时间 : 10/30/2023
模型介绍
内容详情
替代品

模型简介

该模型主要用于图像分类和特征提取,采用视觉Transformer架构,并结合寄存器机制提升性能。

模型特点

寄存器机制
采用寄存器机制提升视觉Transformer的性能,解决传统ViT模型中的问题。
自监督预训练
使用DINOv2自监督学习方法在LVD-142M数据集上进行预训练,无需人工标注。
高效特征提取
模型参数量较小(22.1M),但能高效提取图像特征,适用于多种下游任务。

模型能力

图像分类
图像特征提取
视觉表示学习

使用案例

计算机视觉
图像分类
可用于通用图像分类任务,如识别物体、场景等。
特征提取
提取图像特征用于下游任务,如目标检测、图像检索等。