M

Mambavision L3 512 21K

由 nvidia 开发
MambaVision是首个结合曼巴(Mamba)与Transformer优势的计算机视觉混合模型,通过重新设计曼巴公式增强视觉特征建模能力,并在曼巴架构最后几层加入自注意力模块提升长距离空间依赖建模能力。
下载量 7,548
发布时间 : 3/24/2025
模型介绍
内容详情
替代品

模型简介

MambaVision系列模型是专为计算机视觉任务设计的混合架构,结合了曼巴(Mamba)的高效序列建模能力和Transformer的自注意力机制,适用于图像分类和特征提取等任务。

模型特点

混合架构设计
结合曼巴(Mamba)的高效序列建模能力和Transformer的自注意力机制,在曼巴架构最后几层加入自注意力模块以提升长距离空间依赖建模能力。
层级结构
提供具有层级结构的模型系列,包括不同规模的模型以满足不同计算资源和性能需求。
高性能
在Top1准确率与吞吐量方面实现了新的SOTA帕累托前沿,平衡了模型性能和计算效率。

模型能力

图像分类
特征提取

使用案例

计算机视觉
图像分类
使用MambaVision对图像进行分类,如识别动物种类、物体类别等。
在ImageNet-1K上达到88.1%的Top1准确率。
特征提取
提取图像的四阶段特征图及全局池化特征,可用于下游任务如目标检测、图像分割等。