N

Nat Base In1k 224

由 shi-labs 开发
NAT-Base是基于ImageNet-1K训练的视觉Transformer模型,采用邻域注意力机制进行图像分类。
下载量 6
发布时间 : 11/18/2022
模型介绍
内容详情
替代品

模型简介

NAT是一种基于邻域注意力(NA)的分层视觉Transformer,专门用于图像分类任务。邻域注意力是一种受限的自注意力机制,每个标记的感受野仅限于其最近的相邻像素,具有高度灵活性并保持平移等变性。

模型特点

邻域注意力机制
采用滑动窗口注意力模式,每个标记的感受野仅限于其最近的相邻像素,保持平移等变性。
高效实现
通过NATTEN库在PyTorch中高效实现邻域注意力机制。
分层结构
采用分层视觉Transformer架构,适合处理不同尺度的视觉特征。

模型能力

图像分类
视觉特征提取

使用案例

计算机视觉
ImageNet图像分类
将图像分类为1,000个ImageNet类别之一。