D

Dinat Mini In1k 224

由 shi-labs 开发
DiNAT-Mini是基于邻域注意力机制的分层视觉Transformer模型,专为图像分类任务设计。
下载量 462
发布时间 : 11/14/2022
模型介绍
内容详情
替代品

模型简介

该模型采用扩张邻域注意力机制(DiNA),在ImageNet-1K数据集上训练完成,适用于224x224分辨率的图像分类任务。

模型特点

邻域注意力机制
采用受限的自注意力机制,每个标记的感受野仅限于其最近的相邻像素,保持平移等变性。
扩张邻域注意力
通过扩张变体(DiNA)扩展感受野,形成灵活的滑动窗口注意力模式。
分层结构
采用分层视觉Transformer架构,适合处理不同尺度的视觉特征。

模型能力

图像分类
视觉特征提取

使用案例

计算机视觉
ImageNet图像分类
将输入图像分类为1000个ImageNet类别之一