V

Vit Base Patch14 Reg4 Dinov2.lvd142m

由 timm 开发
一个带有寄存器的视觉变换器(ViT)图像特征模型,使用自监督的DINOv2方法在LVD-142M数据集上进行预训练。
下载量 40.95k
发布时间 : 10/30/2023
模型介绍
内容详情
替代品

模型简介

该模型是基于视觉变换器(ViT)架构的图像特征提取骨干网络,特别添加了寄存器机制以提升性能。主要用于图像分类和特征提取任务。

模型特点

寄存器增强
模型采用了寄存器机制,提升了视觉变换器的性能表现
自监督预训练
使用DINOv2自监督学习方法在LVD-142M数据集上进行预训练
大尺寸输入支持
支持518×518像素的大尺寸图像输入

模型能力

图像特征提取
图像分类
生成图像嵌入表示

使用案例

计算机视觉
图像分类
可用于通用图像分类任务
特征提取
可作为骨干网络为下游视觉任务提供特征表示