Mambavision L2 1K

由 nvidia 开发

MambaVision是首个融合Mamba与Transformer优势的计算机视觉混合模型，通过重构Mamba公式增强视觉特征建模能力，并在Mamba架构最后几层加入自注意力模块提升长程空间依赖建模能力。

图像分类

Transformers

开源协议:其他 #混合Mamba-Transformer架构 #分层特征提取 #动态分辨率支持

下载量 56

发布时间 : 7/14/2024

模型简介

MambaVision是一个混合型视觉骨干网络，结合了Mamba和Transformer的优势，主要用于图像分类和特征提取任务。

模型特点

混合架构

结合Mamba的高效序列建模能力和Transformer的长程依赖建模能力，提升视觉特征提取效果。

分层架构

采用分层架构设计，满足不同计算资源和性能需求的应用场景。

高性能

在Top-1准确率与计算吞吐量方面创造了新的SOTA帕累托前沿。

模型能力

图像分类

特征提取

使用案例

计算机视觉

图像分类

对输入图像进行分类，输出类别标签。

在ImageNet-1K数据集上达到高准确率。

特征提取

提取图像的层级特征，可用于下游任务如目标检测、图像分割等。

支持提取四个阶段的层级特征和最终平均池化后的扁平化特征。

🚀 MambaVision：混合Mamba-Transformer视觉骨干网络

MambaVision是首个用于计算机视觉的混合模型，它结合了Mamba和Transformer的优势，重新设计了Mamba公式以高效建模视觉特征，还对Vision Transformers (ViT)与Mamba的集成进行了全面研究，推出了具有分层架构的模型家族，在图像分类等任务中表现出色。

🚀 快速开始

安装依赖

强烈建议通过运行以下命令来安装MambaVision的依赖项：

pip install mambavision

✨ 主要特性

混合架构创新：开发了首个结合Mamba和Transformer优势的计算机视觉混合模型。
Mamba公式改进：重新设计Mamba公式，增强其对视觉特征的高效建模能力。
集成可行性研究：对Vision Transformers (ViT)与Mamba的集成可行性进行了全面的消融研究。
长程依赖建模：在Mamba架构的最后几层配备多个自注意力块，显著提高了捕捉长程空间依赖的建模能力。
分层架构模型家族：推出具有分层架构的MambaVision模型家族，以满足各种设计标准。
卓越性能表现：在Top-1准确率和吞吐量方面达到了新的SOTA Pareto前沿。

📦 安装指南

通过以下命令安装MambaVision：

pip install mambavision

💻 使用示例

基础用法

图像分类

在以下示例中，我们展示了如何使用MambaVision进行图像分类。以COCO数据集验证集中的图像作为输入：

使用以下代码片段进行图像分类： ```python from transformers import AutoModelForImageClassification from PIL import Image from timm.data.transforms_factory import create_transform import requests

model = AutoModelForImageClassification.from_pretrained("nvidia/MambaVision-L2-1K", trust_remote_code=True)

eval mode for inference

model.cuda().eval()

prepare image for the model

url = 'http://images.cocodataset.org/val2017/000000020247.jpg' image = Image.open(requests.get(url, stream=True).raw) input_resolution = (3, 224, 224) # MambaVision supports any input resolutions

transform = create_transform(input_size=input_resolution, is_training=False, mean=model.config.mean, std=model.config.std, crop_mode=model.config.crop_pct, crop_pct=model.config.crop_pct)

inputs = transform(image).unsqueeze(0).cuda()

model inference

outputs = model(inputs) logits = outputs['logits'] predicted_class_idx = logits.argmax(-1).item() print("Predicted class:", model.config.id2label[predicted_class_idx])

预测标签为 ```brown bear, bruin, Ursus arctos.```

#### 特征提取
MambaVision也可以用作通用特征提取器。可以提取模型每个阶段（共4个阶段）的输出以及最终的平均池化特征。
```python
from transformers import AutoModel
from PIL import Image
from timm.data.transforms_factory import create_transform
import requests

model = AutoModel.from_pretrained("nvidia/MambaVision-L2-1K", trust_remote_code=True)

# eval mode for inference
model.cuda().eval()

# prepare image for the model
url = 'http://images.cocodataset.org/val2017/000000020247.jpg'
image = Image.open(requests.get(url, stream=True).raw)
input_resolution = (3, 224, 224)  # MambaVision supports any input resolutions

transform = create_transform(input_size=input_resolution,
                             is_training=False,
                             mean=model.config.mean,
                             std=model.config.std,
                             crop_mode=model.config.crop_pct,
                             crop_pct=model.config.crop_pct)
inputs = transform(image).unsqueeze(0).cuda()
# model inference
out_avg_pool, features = model(inputs)
print("Size of the averaged pool features:", out_avg_pool.size())  # torch.Size([1, 640])
print("Number of stages in extracted features:", len(features)) # 4 stages
print("Size of extracted features in stage 1:", features[0].size()) # torch.Size([1, 80, 56, 56])
print("Size of extracted features in stage 4:", features[3].size()) # torch.Size([1, 640, 7, 7])

📚 详细文档

模型概述

我们开发了首个用于计算机视觉的混合模型，该模型利用了Mamba和Transformer的优势。具体而言，我们的核心贡献包括重新设计Mamba公式，以增强其对视觉特征的高效建模能力。此外，我们对Vision Transformers (ViT)与Mamba的集成可行性进行了全面的消融研究。结果表明，在Mamba架构的最后几层配备多个自注意力块，极大地提高了捕捉长程空间依赖的建模能力。基于这些发现，我们推出了具有分层架构的MambaVision模型家族，以满足各种设计标准。

模型性能

MambaVision表现出色，在Top-1准确率和吞吐量方面达到了新的SOTA Pareto前沿。

📄 许可证

本项目遵循NVIDIA Source Code License-NC许可协议。

Mambavision L2 1K

模型简介

模型特点

模型能力

使用案例

🚀 MambaVision：混合Mamba-Transformer视觉骨干网络

🚀 快速开始

安装依赖

✨ 主要特性

📦 安装指南

💻 使用示例

基础用法

图像分类

eval mode for inference

prepare image for the model

model inference

📚 详细文档

模型概述

模型性能

📄 许可证

相关链接