D

Deit Base Patch16 384

由 facebook 开发
DeiT是一种高效训练的Vision Transformer模型,在ImageNet-1k数据集上以384x384分辨率预训练和微调,适用于图像分类任务。
下载量 442
发布时间 : 3/2/2022
模型介绍
内容详情
替代品

模型简介

该模型是一种更高效训练的Vision Transformer(ViT),通过注意力机制和蒸馏技术优化训练过程,主要用于图像分类任务。

模型特点

高效训练
通过注意力机制和蒸馏技术优化训练过程,减少数据需求。
高分辨率支持
支持384x384分辨率输入,提升分类精度。
轻量级架构
基础模型参数量为86M,适合中等规模部署。

模型能力

图像分类
特征提取

使用案例

计算机视觉
ImageNet分类
将图像分类为1000个ImageNet类别之一。
Top-1准确率82.9%,Top-5准确率96.2%。