V

Vit Base Patch16 224.dino

由 timm 开发
基于自监督DINO方法训练的Vision Transformer(ViT)图像特征模型,适用于图像分类和特征提取任务。
下载量 33.45k
发布时间 : 12/22/2022
模型介绍
内容详情
替代品

模型简介

该模型是基于DINO自监督学习方法训练的Vision Transformer,主要用于图像分类和作为特征提取的主干网络。

模型特点

自监督学习
使用DINO方法进行自监督训练,无需大量标注数据即可学习有效的视觉表示。
Vision Transformer架构
采用标准的ViT-B/16架构,将图像分割为16x16的patch进行处理。
高效特征提取
可作为特征提取的主干网络,输出768维的特征向量。

模型能力

图像分类
图像特征提取
视觉表示学习

使用案例

计算机视觉
图像分类
对图像进行分类,输出ImageNet-1k中的类别概率。
特征提取
提取图像的高级特征表示,可用于下游任务如目标检测、图像检索等。