D

Dino Vitb8

由 facebook 开发
基于DINO方法自监督训练的视觉Transformer模型,采用8x8图像块处理,适用于图像特征提取任务
下载量 1,664
发布时间 : 3/2/2022
模型介绍
内容详情
替代品

模型简介

该模型是使用DINO自监督方法在ImageNet-1k数据集上预训练的视觉Transformer(ViT),主要用于图像表征学习,可作为下游视觉任务的特征提取器

模型特点

自监督学习
采用DINO自监督学习方法,无需人工标注即可学习图像特征
8x8图像块处理
将图像分割为8x8像素块进行处理,适合捕捉局部特征
Transformer架构
基于Transformer编码器架构,具有强大的特征提取能力

模型能力

图像特征提取
图像表征学习
下游视觉任务迁移学习

使用案例

计算机视觉
图像分类
在预训练模型基础上添加分类头进行微调
目标检测
作为特征提取器用于目标检测任务