Mambavision L 1K

由 nvidia 开发

首个结合Mamba与Transformer优势的计算机视觉混合模型，通过重新设计Mamba公式增强视觉特征建模能力

图像分类

Transformers

开源协议:其他 #混合架构视觉模型 #长距离空间建模 #分层特征提取

下载量 1,542

发布时间 : 7/14/2024

模型介绍

内容详情

替代品

模型简介

MambaVision是结合Mamba与Transformer的混合视觉模型，具有分层架构，支持图像分类和特征提取任务

模型特点

混合架构创新

首次将Mamba与Transformer结合，重新设计Mamba公式以增强视觉特征建模能力

分层架构设计

提供分层架构模型系列，满足不同设计需求

性能优势

在Top-1准确率与吞吐量方面创造了新的SOTA帕累托前沿

多阶段特征提取

支持获取四个阶段的层级特征及最终平均池化特征

模型能力

图像分类

视觉特征提取

长距离空间依赖建模

使用案例

计算机视觉

通用图像分类

对输入图像进行分类识别

示例输出：'棕熊'

视觉特征提取

提取图像的多层次特征表示

可获取四个阶段的层级特征及平均池化特征

数据集:

ILSVRC/imagenet-1k 许可证: 其他许可证名称: nvclv1 许可证链接: LICENSE 任务类型: 图像分类库名称: transformers

MambaVision: 混合型Mamba-Transformer视觉主干网络

模型概述

我们开发了首个结合Mamba与Transformer优势的计算机视觉混合模型。核心创新包括：重新设计Mamba公式以增强其视觉特征建模能力，并通过系统实验验证了视觉Transformer（ViT）与Mamba融合的可行性。研究表明，在Mamba架构最后几层加入自注意力模块能显著提升长距离空间依赖的建模能力。基于此，我们推出了具有分层架构的MambaVision系列模型，满足不同设计需求。

模型性能

MambaVision在Top-1准确率与吞吐量方面创造了新的SOTA帕累托前沿。

使用指南

建议通过以下命令安装依赖环境：

pip install mambavision

每个模型均提供图像分类和特征提取两种变体，一行代码即可导入。

图像分类

以下示例展示如何使用MambaVision进行图像分类。输入图片来自COCO数据集验证集：

分类代码示例：

from transformers import AutoModelForImageClassification
from PIL import Image
from timm.data.transforms_factory import create_transform
import requests

model = AutoModelForImageClassification.from_pretrained("nvidia/MambaVision-L-1K", trust_remote_code=True)
model.cuda().eval()  # 切换推理模式

# 图像预处理
url = 'http://images.cocodataset.org/val2017/000000020247.jpg'
image = Image.open(requests.get(url, stream=True).raw)
input_resolution = (3, 224, 224)  # 支持任意分辨率输入

transform = create_transform(input_size=input_resolution,
                             is_training=False,
                             mean=model.config.mean,
                             std=model.config.std,
                             crop_mode=model.config.crop_mode,
                             crop_pct=model.config.crop_pct)

inputs = transform(image).unsqueeze(0).cuda()
outputs = model(inputs)
predicted_class = model.config.id2label[outputs['logits'].argmax(-1).item()]
print("预测类别:", predicted_class)  # 输出示例: "棕熊"

特征提取

MambaVision可作为通用特征提取器，支持获取四个阶段的层级特征及最终平均池化特征：

from transformers import AutoModel
from PIL import Image
from timm.data.transforms_factory import create_transform
import requests

model = AutoModel.from_pretrained("nvidia/MambaVision-L-1K", trust_remote_code=True)
model.cuda().eval()

# 图像预处理（同上）
...
inputs = transform(image).unsqueeze(0).cuda()

# 特征提取
out_avg_pool, features = model(inputs)
print("平均池化特征尺寸:", out_avg_pool.size())  # [1, 640]
print("特征阶段数:", len(features))  # 4个阶段
print("第一阶段特征尺寸:", features[0].size())  # [1, 80, 56, 56]
print("第四阶段特征尺寸:", features[3].size())  # [1, 640, 7, 7]