V

Vit Large Patch14 Dinov2.lvd142m

由 pcuenq 开发
基于视觉Transformer(ViT)的图像特征模型,采用自监督DINOv2方法在LVD-142M数据集上预训练。
下载量 18
发布时间 : 1/21/2025
模型介绍
内容详情
替代品

模型简介

这是一个大型视觉Transformer模型,主要用于图像特征提取和图像分类任务。模型采用DINOv2自监督学习方法在LVD-142M数据集上进行预训练,能够生成高质量的图像表示。

模型特点

自监督预训练
采用DINOv2自监督学习方法在LVD-142M数据集上预训练,无需人工标注数据
大规模视觉Transformer
基于ViT-Large架构,具有304.4百万参数,能够处理高分辨率图像
高分辨率处理能力
支持518×518像素的高分辨率图像输入

模型能力

图像特征提取
图像分类
图像表示学习

使用案例

计算机视觉
图像分类
可用于各种图像分类任务,如物体识别、场景分类等
图像检索
利用提取的图像特征进行相似图像检索
视觉表示学习
作为其他视觉任务的基础模型,如目标检测、分割等