M

Mambavision B 21K

由 nvidia 开发
首个融合曼巴(Mamba)与Transformer优势的计算机视觉混合模型,通过重构曼巴公式增强视觉特征建模效率,并在曼巴架构末端引入自注意力模块提升长程空间依赖建模能力。
下载量 1,395
发布时间 : 3/24/2025
模型介绍
内容详情
替代品

模型简介

MambaVision是一个具有层级结构的视觉骨干网络,结合了曼巴和Transformer的优势,适用于图像分类和特征提取任务。

模型特点

混合架构创新
首次将曼巴与Transformer结合,重构曼巴公式以优化视觉特征建模效率
层级结构设计
提供具有层级结构的模型系列,满足多样化设计需求
性能优化
在曼巴架构末端引入自注意力模块,显著提升长程空间依赖建模能力

模型能力

图像分类
视觉特征提取

使用案例

计算机视觉
图像分类
对输入图像进行分类预测
在ImageNet-1K上达到84.9% Top-1准确率
特征提取
获取图像的四阶段特征图及全局平均池化特征