V

Vit Small Patch14 Dinov2.lvd142m

由 timm 开发
基于视觉Transformer(ViT)的图像特征模型,采用自监督DINOv2方法在LVD-142M数据集上预训练
下载量 35.85k
发布时间 : 5/9/2023
模型介绍
内容详情
替代品

模型简介

这是一个小型的视觉Transformer模型,专门用于图像特征提取。它使用DINOv2自监督学习方法在LVD-142M数据集上进行预训练,能够生成高质量的图像表示。

模型特点

自监督学习
采用DINOv2自监督学习方法,无需人工标注即可学习高质量图像特征
高效架构
小型ViT架构,参数量适中(22.1M),计算效率高
大尺度预训练
在LVD-142M大规模数据集上预训练,学习广泛视觉特征

模型能力

图像特征提取
图像分类
视觉表示学习

使用案例

计算机视觉
图像分类
可用于图像分类任务,通过提取的特征进行分类
视觉搜索
提取图像特征用于相似图像检索
下游视觉任务
作为预训练模型,可用于微调各种下游视觉任务