开源RADIO-L视觉基础模型 - 适用于各类计算机视觉任务，免费部署！

首页

RADIO L

由 nvidia 开发

AM-RADIO是NVIDIA研究院开发的视觉基础模型，采用聚合式架构实现多领域统一表征，适用于各类计算机视觉任务。

图像分割

Transformers

#多域视觉表征 #密集特征提取 #零样本迁移

下载量 23.27k

发布时间 : 7/23/2024

模型简介

AM-RADIO是一个通用的视觉基础模型，能够同时提取图像的整体概念表征和局部空间特征，支持从图像分类到语义分割等多种计算机视觉任务。

模型特点

双输出表征

同时输出图像整体概念表征（类似ViT的cls_token）和局部空间特征，适应不同粒度的视觉任务需求

多领域统一

通过聚合式架构实现跨领域的视觉特征统一表征

灵活特征转换

支持将空间特征转换为标准(B,D,H,W)张量格式，便于集成到各类计算机视觉流程中

模型能力

图像整体概念表征提取

局部空间特征提取

语义分割支持

LLM视觉特征集成

使用案例

计算机视觉

图像分类

利用summary特征进行图像整体分类

语义分割

使用spatial_features进行像素级预测

多模态系统

LLM视觉输入

为大型语言模型提供视觉特征输入

🚀 AM - RADIO：将所有领域归为一体

AM - RADIO 是一种创新的模型，它能够将多个领域的信息进行整合，为计算机视觉任务提供更强大的支持，在图像理解等方面具有重要价值。

🚀 快速开始

HuggingFace Hub

你可以从 Python 脚本中拉取模型：

import torch
from PIL import Image
from transformers import AutoModel, CLIPImageProcessor

hf_repo = "nvidia/RADIO-L"

image_processor = CLIPImageProcessor.from_pretrained(hf_repo)
model = AutoModel.from_pretrained(hf_repo, trust_remote_code=True)
model.eval().cuda()

image = Image.open('./assets/radio.png').convert('RGB')
pixel_values = image_processor(images=image, return_tensors='pt', do_resize=True).pixel_values
pixel_values = pixel_values.cuda()

summary, features = model(pixel_values)

💻 使用示例

基础用法

RADIO 将返回一个包含两个张量的元组。summary 类似于 ViT 中的 cls_token，用于表示整个图像的一般概念。它的形状为 $(B,C)$，其中 $B$ 是批量维度，$C$ 是通道数。spatial_features 表示更局部的内容，适用于密集任务（如语义分割）或集成到 LLM 中。它的形状为 $(B,T,D)$，其中 $T$ 是扁平化的空间令牌，$D$ 是空间特征的通道数。请注意，一般情况下 $C \neq D$。

# RADIO使用示例
import torch
from PIL import Image
from transformers import AutoModel, CLIPImageProcessor

hf_repo = "nvidia/RADIO-L"

image_processor = CLIPImageProcessor.from_pretrained(hf_repo)
model = AutoModel.from_pretrained(hf_repo, trust_remote_code=True)
model.eval().cuda()

image = Image.open('./assets/radio.png').convert('RGB')
pixel_values = image_processor(images=image, return_tensors='pt', do_resize=True).pixel_values
pixel_values = pixel_values.cuda()

summary, features = model(pixel_values)

高级用法

将其转换为空间张量格式可以使用模型的下采样大小，并结合输入张量的形状。对于 'radio_v1'，补丁大小为 14。

from einops import rearrange
spatial_features = rearrange(spatial_features, 'b (h w) d -> b d h w', h=x.shape[-2] // patch_size, w=x.shape[-1] // patch_size)

得到的张量将具有 $(B,D,H,W)$ 的形状，这在计算机视觉模型中很常见。

📚 详细文档

RADIOv2.5 说明

请参阅 RADIOv2.5 技术报告。

📄 许可证

RADIO 的代码和权重根据 NSCLv1 许可证发布。

📚 引用信息

如果你发现这个仓库很有用，请考虑给它加星并引用：

@InProceedings{Ranzinger_2024_CVPR,
    author    = {Ranzinger, Mike and Heinrich, Greg and Kautz, Jan and Molchanov, Pavlo},
    title     = {AM-RADIO: Agglomerative Vision Foundation Model Reduce All Domains Into One},
    booktitle = {Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)},
    month     = {June},
    year      = {2024},
    pages     = {12490-12500}
}

@misc{ranzinger2024phisdistributionbalancinglabelfree,
      title={PHI-S: Distribution Balancing for Label-Free Multi-Teacher Distillation}, 
      author={Mike Ranzinger and Jon Barker and Greg Heinrich and Pavlo Molchanov and Bryan Catanzaro and Andrew Tao},
      year={2024},
      eprint={2410.01680},
      archivePrefix={arXiv},
      primaryClass={cs.LG},
      url={https://arxiv.org/abs/2410.01680}, 
}

作者信息

Mike Ranzinger
Greg Heinrich
Jan Kautz
Pavlo Molchanov

研究机构

NVIDIA Research