M

Mambavision L3 256 21K

由 nvidia 开发
首个结合Mamba与Transformer优势的计算机视觉混合模型,通过重构Mamba公式增强视觉特征建模效率,在Mamba架构最后几层引入自注意力模块提升长程空间依赖建模能力。
下载量 510
发布时间 : 3/24/2025
模型介绍
内容详情
替代品

模型简介

MambaVision是一个混合Mamba-Transformer视觉骨干网络,专为图像分类和特征提取设计,在ImageNet-21K数据集上预训练,并在ImageNet-1K上微调。

模型特点

混合架构
结合Mamba的高效序列建模和Transformer的长程依赖捕捉能力,优化视觉特征提取。
层级结构
采用层级设计,满足多样化视觉任务需求,支持多阶段特征提取。
性能优化
在Top-1准确率与吞吐量方面实现了新的SOTA帕累托前沿。

模型能力

图像分类
视觉特征提取
多阶段特征图输出

使用案例

计算机视觉
图像分类
对输入图像进行分类,识别图像中的主要对象。
在ImageNet-1K上达到87.3%的Top-1准确率。
特征提取
提取图像的多阶段特征图,用于下游视觉任务。
支持4个阶段的特征图输出,适用于不同粒度的视觉分析。