V

Vit Small Patch16 224.dino

由 timm 开发
基于视觉Transformer(ViT)的图像特征模型,采用自监督DINO方法训练,适用于图像分类和特征提取任务。
下载量 70.62k
发布时间 : 12/22/2022

模型简介

该模型是一种基于视觉Transformer(ViT)的图像特征模型,采用自监督DINO方法训练。主要用于图像分类和作为特征主干网络,适用于各种计算机视觉任务。

模型特点

自监督学习
采用DINO自监督学习方法训练,无需大量标注数据即可学习有效的视觉表示。
高效架构
基于Vision Transformer架构,参数量为21.7M,GMACs运算量为4.3,适合中等规模计算需求。
多任务支持
既可用于图像分类,也可作为特征提取主干网络,支持多种下游计算机视觉任务。

模型能力

图像特征提取
图像分类
计算机视觉任务支持

使用案例

计算机视觉
图像分类
对输入图像进行分类,输出类别概率分布。
在ImageNet-1k数据集上表现良好
特征提取
提取图像的深度特征表示,可用于下游任务如目标检测、图像检索等。
提供384维特征向量
AIbase
智启未来,您的人工智能解决方案智库
简体中文