M

Mambavision T 1K

由 nvidia 开发
MambaVision是首个结合Mamba和Transformer优势的计算机视觉混合模型,通过重新设计Mamba公式并集成ViT模块,显著提升了长距离空间依赖关系的建模能力。
下载量 2,323
发布时间 : 7/14/2024
模型介绍
内容详情
替代品

模型简介

MambaVision是一种混合Mamba-Transformer视觉骨干网络,专为图像分类和特征提取任务设计。它结合了Mamba的高效建模能力和Transformer的长距离依赖捕捉能力,在Top-1准确率和吞吐量方面达到了新的SOTA水平。

模型特点

混合架构创新
首次将Mamba和Transformer优势结合,重新设计Mamba公式以增强视觉特征建模能力
层次化设计
提供一系列具有层次化架构的模型,满足不同设计需求
高效长距离依赖建模
在Mamba架构最后一层加入多个自注意力模块,显著提升长距离空间依赖关系捕捉能力

模型能力

图像分类
图像特征提取
多阶段特征输出

使用案例

计算机视觉
图像分类
对输入图像进行分类识别,如识别动物种类
示例中成功识别出棕熊
特征提取
提取图像的多层次特征表示,可用于下游任务
可输出4个阶段的特征图及平均池化特征