M

Mambavision T2 1K

由 nvidia 开发
首个结合Mamba与Transformer优势的计算机视觉混合模型,通过重新设计Mamba公式增强视觉特征建模能力,并在Mamba架构中融入自注意力模块提升长程空间依赖建模。
下载量 597
发布时间 : 7/14/2024
模型介绍
内容详情
替代品

模型简介

MambaVision是一个结合Mamba和Transformer的混合视觉模型,专为图像特征提取和分类设计,具有高效的视觉特征建模能力和优异的性能表现。

模型特点

混合架构设计
结合Mamba的高效建模能力和Transformer的长程依赖建模优势,实现更优的视觉特征提取。
分层架构
提供分层架构设计,满足多样化视觉任务需求,支持不同规模和复杂度的应用场景。
高性能
在Top-1准确率与吞吐量方面实现了新的SOTA帕累托前沿,性能优异。

模型能力

图像特征提取
图像分类

使用案例

计算机视觉
图像分类
对输入图像进行分类,如COCO数据集中的物体识别。
准确识别图像中的物体类别,如棕熊等。
特征提取
提取图像的多阶段特征,用于下游任务如目标检测、图像分割等。
输出四个阶段的特征及最终平均池化特征,适用于多种视觉任务。