V

Vit Large Patch14 Reg4 Dinov2.lvd142m

由 timm 开发
带有寄存器的视觉变换器(ViT)图像特征模型,使用自监督的DINOv2方法在LVD-142M数据集上进行预训练。
下载量 119.48k
发布时间 : 10/30/2023
模型介绍
内容详情
替代品

模型简介

该模型是一种视觉变换器(ViT)架构的图像特征提取模型,主要用于图像分类和特征提取任务。通过自监督学习在大型数据集上预训练,能够提取高质量的图像特征。

模型特点

寄存器增强
模型采用了寄存器机制,增强了视觉变换器的性能,特别是在处理图像背景和无关信息时表现更优。
自监督预训练
使用DINOv2自监督学习方法在LVD-142M数据集上进行预训练,无需人工标注即可学习强大的视觉特征。
大尺寸输入支持
支持518x518像素的大尺寸图像输入,能够捕捉更丰富的视觉细节。

模型能力

图像特征提取
图像分类
视觉表示学习

使用案例

计算机视觉
图像分类
可用于通用图像分类任务,如物体识别、场景分类等。
特征提取
可作为其他视觉任务的骨干网络,提供高质量的图像特征表示。