V

Vit Giant Patch14 Reg4 Dinov2.lvd142m

由 timm 开发
一个带有寄存器的视觉Transformer(ViT)图像特征模型,采用自监督DINOv2方法在LVD-142M数据集上预训练。
下载量 917
发布时间 : 10/30/2023

模型简介

该模型主要用于图像分类和特征提取任务,基于视觉Transformer架构,通过自监督学习在大型数据集上进行预训练。

模型特点

寄存器增强
模型采用了寄存器技术,增强了视觉Transformer的性能和稳定性。
自监督学习
使用DINOv2自监督学习方法在LVD-142M数据集上进行预训练。
大规模预训练
在LVD-142M大规模数据集上预训练,具有强大的特征提取能力。

模型能力

图像特征提取
图像分类
视觉表示学习

使用案例

计算机视觉
图像分类
可用于对图像进行分类,支持多种类别识别。
在多个基准数据集上表现出色
特征提取
可作为特征提取器用于下游视觉任务。
提取的特征可用于目标检测、图像分割等任务
AIbase
智启未来,您的人工智能解决方案智库
简体中文