M

Mambavision S 1K

由 nvidia 开发
首个结合曼巴(Mamba)与Transformer优势的计算机视觉混合模型,通过重构曼巴公式增强视觉特征建模效率,并在曼巴架构末端加入自注意力模块提升长程空间依赖建模能力。
下载量 908
发布时间 : 7/14/2024
模型介绍
内容详情
替代品

模型简介

MambaVision是一个结合曼巴和Transformer优势的视觉骨干网络,主要用于图像分类和特征提取任务,具有高效的视觉特征建模能力和长程空间依赖处理能力。

模型特点

混合架构
结合曼巴(Mamba)与Transformer的优势,重构曼巴公式以增强视觉特征建模效率。
长程空间依赖建模
在曼巴架构末端加入自注意力模块,显著提升长程空间依赖的建模能力。
分层架构
提供具有分层架构的MambaVision系列模型,满足多样化设计需求。
高性能
在Top-1准确率与吞吐量方面实现了新的SOTA帕累托前沿。

模型能力

图像分类
特征提取
多阶段特征输出

使用案例

计算机视觉
图像分类
使用MambaVision对图像进行分类,如识别动物种类等。
预测类别: 棕熊(brown bear, bruin, Ursus arctos)
特征提取
使用MambaVision作为通用特征提取器,获取四阶段层级特征及最终平均池化特征。
可获取四个阶段的特征图及平均池化特征