M

Mambavision L2 1K

由 nvidia 开发
MambaVision是首个融合Mamba与Transformer优势的计算机视觉混合模型,通过重构Mamba公式增强视觉特征建模能力,并在Mamba架构最后几层加入自注意力模块提升长程空间依赖建模能力。
下载量 56
发布时间 : 7/14/2024
模型介绍
内容详情
替代品

模型简介

MambaVision是一个混合型视觉骨干网络,结合了Mamba和Transformer的优势,主要用于图像分类和特征提取任务。

模型特点

混合架构
结合Mamba的高效序列建模能力和Transformer的长程依赖建模能力,提升视觉特征提取效果。
分层架构
采用分层架构设计,满足不同计算资源和性能需求的应用场景。
高性能
在Top-1准确率与计算吞吐量方面创造了新的SOTA帕累托前沿。

模型能力

图像分类
特征提取

使用案例

计算机视觉
图像分类
对输入图像进行分类,输出类别标签。
在ImageNet-1K数据集上达到高准确率。
特征提取
提取图像的层级特征,可用于下游任务如目标检测、图像分割等。
支持提取四个阶段的层级特征和最终平均池化后的扁平化特征。