D

Dino Vitb16

由 facebook 开发
基于DINO自监督方法训练的视觉Transformer模型,采用ViT架构,在ImageNet-1k数据集上预训练。
下载量 122.46k
发布时间 : 3/2/2022
模型介绍
内容详情
替代品

模型简介

该模型通过自监督学习在ImageNet-1k数据集上预训练,能够提取图像特征用于下游视觉任务。模型采用16×16图像块分割方式,不包含微调头部。

模型特点

自监督学习
采用DINO方法进行自监督训练,无需人工标注数据即可学习图像特征
ViT架构
基于Transformer编码器架构处理图像,将图像分割为16×16像素块进行序列化处理
通用特征提取
预训练模型可提取通用图像特征,适用于多种下游视觉任务

模型能力

图像特征提取
图像分类(需添加分类头)
视觉表示学习

使用案例

计算机视觉
图像分类
在模型顶部添加线性层,可用于图像分类任务
特征提取
提取图像特征用于目标检测、分割等下游任务