V

Vit Large Patch14 Dinov2.lvd142m

由 timm 开发
基于视觉Transformer(ViT)的自监督图像特征模型,采用DINOv2方法在LVD-142M数据集上预训练,适用于图像分类和特征提取任务。
下载量 32.01k
发布时间 : 5/9/2023
模型介绍
内容详情
替代品

模型简介

该模型是一种基于视觉Transformer架构的图像特征提取模型,通过自监督学习在大型数据集上预训练,能够生成高质量的图像特征表示,适用于多种计算机视觉任务。

模型特点

自监督预训练
采用DINOv2自监督学习方法在LVD-142M数据集上预训练,无需人工标注数据。
大规模模型
拥有304.4百万参数的大型视觉Transformer架构,能够捕捉丰富的图像特征。
高分辨率处理
支持518×518像素的高分辨率图像输入,适合处理细节丰富的视觉内容。

模型能力

图像特征提取
图像分类
视觉表示学习

使用案例

计算机视觉
图像分类
可用于对图像内容进行分类,支持获取top5预测结果。
特征提取
可提取高质量的图像嵌入特征,用于下游视觉任务。