D

Deit Base Patch16 224

由 facebook 开发
DeiT是一种通过注意力机制训练的数据高效图像Transformer模型,在ImageNet-1k数据集上以224x224分辨率进行预训练和微调。
下载量 152.63k
发布时间 : 3/2/2022
模型介绍
内容详情
替代品

模型简介

该模型是一个经过更高效训练的Vision Transformer(ViT),主要用于图像分类任务。它通过监督方式在ImageNet-1k数据集上进行预训练和微调,能够学习图像的内在表示并提取对下游任务有用的特征。

模型特点

数据高效训练
通过注意力机制和蒸馏技术实现更高效的数据利用,减少训练所需的数据量。
高准确率
在ImageNet-1k数据集上达到81.8%的top-1准确率和95.6%的top-5准确率。
基于Transformer架构
采用类似BERT的Transformer编码器结构,适用于图像处理任务。

模型能力

图像分类
特征提取

使用案例

计算机视觉
图像分类
将图像分类为1000个ImageNet类别之一。
在ImageNet-1k上达到81.8%的top-1准确率。
下游任务特征提取
作为预训练模型,为其他计算机视觉任务提供特征提取能力。