V

Vit Base Patch14 Dinov2.lvd142m

由 timm 开发
基于Vision Transformer(ViT)的图像特征模型,采用自监督DINOv2方法在LVD-142M数据集上预训练
下载量 50.71k
发布时间 : 5/9/2023
模型介绍
内容详情
替代品

模型简介

该模型是一个用于图像分类和特征提取的骨干网络,采用Vision Transformer架构,通过自监督学习在大型数据集上预训练,能够提取高质量的图像特征表示。

模型特点

自监督预训练
采用DINOv2自监督学习方法在LVD-142M数据集上预训练,无需人工标注数据
大尺寸图像处理
支持518×518像素的大尺寸图像输入,能够捕捉更丰富的视觉信息
高效特征提取
模型设计优化了计算效率,GMACs运算量为151.7,适合作为特征提取骨干网络

模型能力

图像特征提取
图像分类
视觉表示学习

使用案例

计算机视觉
图像分类
可用于各种图像分类任务,如物体识别、场景分类等
特征提取
可作为其他视觉任务的骨干网络,提取高质量的图像特征表示