许可证:其他
许可证名称:NVIDIA开放模型许可证
许可证链接:>-
https://huggingface.co/nvidia/C-RADIO/resolve/main/nvidia-open-model-license-agreement-june-2024.pdf
库名称:transformers
模型概述
描述:
该模型用于视觉特征提取。
例如,RADIO生成图像嵌入,可供下游模型用于图像分类。
许可证/使用条款
[许可证] 本模型受NVIDIA开放模型许可协议约束。
参考文献:
AM-RADIO:聚合视觉基础模型——将所有领域合而为一
PHI-S:无标签多教师蒸馏的分布平衡
RADIO增强版:聚合视觉基础模型的改进基线
模型架构:
架构类型: 神经网络
网络架构: 视觉变换器
输入:
输入类型: 图像
输入格式: 红、绿、蓝(RGB)像素值,范围[0, 1]。
输入参数: 二维(2D)
其他输入相关属性: 图像分辨率最高为2048x2028,以16像素为增量
输出:
输出类型: 嵌入
输出格式: 张量
输出参数: 2D
其他输出相关属性: 需要下游模型利用图像特征
使用方式:
RADIO将返回一个包含两个张量的元组。
summary
类似于ViT中的cls_token
,旨在表示整个图像的一般概念。
其形状为(B,C)
,其中B
为批次维度,C
为通道数。
spatial_features
表示更局部化的内容,适用于密集任务(如语义分割)或集成到LLM中。
import torch
from PIL import Image
from transformers import AutoModel, CLIPImageProcessor
hf_repo = "nvidia/C-RADIO"
image_processor = CLIPImageProcessor.from_pretrained(hf_repo)
model = AutoModel.from_pretrained(hf_repo, trust_remote_code=True)
model.eval().cuda()
image = Image.open('./assets/radio.png').convert('RGB')
pixel_values = image_processor(images=image, return_tensors='pt', do_resize=True).pixel_values
pixel_values = pixel_values.cuda()
summary, features = model(pixel_values)
空间特征的形状为(B,T,D)
,其中T
为扁平化的空间标记,D
为空间特征的通道数。注意,通常C!=D
。
可以使用模型的下采样大小和输入张量形状将空间特征转换为空间张量格式。对于RADIO,补丁大小为16。
from einops import rearrange
spatial_features = rearrange(spatial_features, 'b (h w) d -> b d h w', h=x.shape[-2] // patch_size, w=x.shape[-1] // patch_size)
生成的张量将具有(B,D,H,W)
的形状,这是计算机视觉模型中常见的格式。
软件集成:
运行时引擎:
支持的硬件微架构兼容性:
- NVIDIA Ampere
- NVIDIA Blackwell
- NVIDIA Jetson
- NVIDIA Hopper
- NVIDIA Lovelace
- NVIDIA Pascal
- NVIDIA Turing
- NVIDIA Volta
[首选/支持]操作系统:
- Linux
- Linux 4 Tegra
- QNX
- Windows
模型版本:
C-RADIO。
链接: https://huggingface.co/nvidia/C-RADIO
训练、测试和评估数据集:
训练数据集:
NV-CC-Img-Text-Dataset
**数据集的数据收集方法
- 自动化
**数据集的标注方法
- 不适用(无需标签)
属性: 7亿张图像
评估数据集:
链接: ImageNet
**数据集的数据收集方法
属性: 该数据集涵盖1000个对象类别,包含1,281,167张训练图像、50,000张验证图像和100,000张测试图像。
推理:
引擎: PyTorch
测试硬件: A100
伦理考量(仅适用于NVIDIA模型):
NVIDIA认为可信赖的AI是一项共同责任,我们已制定政策和实践以支持广泛AI应用的开发。当按照我们的服务条款下载或使用时,开发者应与其内部模型团队合作,确保该模型符合相关行业和使用案例的要求,并解决意外的产品滥用问题。用户应针对特定使用案例评估模型的安全性和质量,并根据需要构建额外的防护措施。
请在此处报告安全漏洞或NVIDIA AI相关问题此处。