库名称: transformers
许可证: 其他
许可证名称: NVIDIA开放模型许可证
许可证链接: https://developer.download.nvidia.com/licenses/nvidia-open-model-license-agreement-june-2024.pdf
任务标签: 图像特征提取
模型概述
[Github] [CVPR 2025] [CVPR 2024]
描述
该模型用于执行视觉特征提取。
例如,RADIO生成的图像嵌入可以被下游模型用于图像分类。
C-RADIOv2模型提供多种尺寸:
- 基础版(9000万参数)。
- 大型版(3.2亿参数)。
- 巨型版(6.53亿参数)。
- 超巨型版(11亿参数)。
C-RADIOv2训练了100万步(比v1多40万步),使用逆频率采样进行数据平衡,并通过PHI标准化平衡教师分布。
该模型可用于商业/非商业用途。
许可证/使用条款
使用本模型受NVIDIA开放模型许可协议约束。
部署地域
全球。
使用场景
该模型生成的嵌入预计将被下游应用使用。
例如:
- 图像级理解(图像分类、筛选等)。
- 密集处理(语义分割、深度估计等)。
- 集成到视觉语言模型中。
发布日期
Huggingface:2025年3月26日,通过RADIO模型集合。
参考文献
模型架构
架构类型: 神经网络
网络架构: 视觉Transformer
输入
输入类型: 图像
输入格式: 红、绿、蓝(RGB)
输入参数: 二维(2D)
其他输入相关属性: 图像分辨率最高2048x2028,以16像素为增量
输出
输出类型: 嵌入
输出格式: 张量
输出参数: 二维(2D)
其他输出相关属性: 需要下游模型利用图像特征
使用方法
RADIO将返回一个包含两个张量的元组。
summary
类似于ViT中的cls_token
,用于表示整个图像的总体概念。
其形状为(B,C)
,其中B
为批次维度,C
为通道数。
spatial_features
表示更局部化的内容,适用于密集任务(如语义分割)或集成到LLM中。
import torch
from PIL import Image
from transformers import AutoModel, CLIPImageProcessor
hf_repo = "nvidia/C-RADIOv2-B"
image_processor = CLIPImageProcessor.from_pretrained(hf_repo)
model = AutoModel.from_pretrained(hf_repo, trust_remote_code=True)
model.eval().cuda()
image = Image.open('./assets/radio.png').convert('RGB')
pixel_values = image_processor(images=image, return_tensors='pt', do_resize=True).pixel_values
pixel_values = pixel_values.cuda()
summary, features = model(pixel_values)
空间特征的形状为(B,T,D)
,其中T
为扁平化的空间标记,D
为空间特征的通道数。注意,通常C!=D
。
可以使用模型的下采样尺寸和输入张量形状将其转换为空间张量格式。对于RADIO,补丁大小为16。
from einops import rearrange
spatial_features = rearrange(spatial_features, 'b (h w) d -> b d h w', h=x.shape[-2] // patch_size, w=x.shape[-1] // patch_size)
结果张量的形状为(B,D,H,W)
,与计算机视觉模型常见格式一致。
软件集成
运行时引擎:
支持的硬件微架构兼容性:
- NVIDIA安培
- NVIDIA布莱克威尔
- NVIDIA Jetson
- NVIDIA霍珀
- NVIDIA洛芙莱斯
- NVIDIA帕斯卡
- NVIDIA图灵
- NVIDIA伏特
[首选/支持]操作系统:
- Linux
- Linux 4 Tegra
- QNX
- Windows
模型版本
- C-RADIOv2-B(9000万参数)。
- C-RADIOv2-L(3.2亿参数)。
- C-RADIOv2-H(6.53亿参数)。
- C-RADIOv2-G(18亿参数)。
链接:
- https://huggingface.co/nvidia/C-RADIOv2-B
- https://huggingface.co/nvidia/C-RADIOv2-L
- https://huggingface.co/nvidia/C-RADIOv2-H
- https://huggingface.co/nvidia/C-RADIOv2-g
训练与评估数据集
训练数据集
NV-CC-Img-Text-Dataset
数据集的数据收集方法
数据集的标注方法
属性
评估数据集
链接: ImageNet
数据集的数据收集方法
数据集的标注方法
属性: 该数据集涵盖1000个对象类别,包含1,281,167张训练图像、50,000张验证图像和100,000张测试图像。
推理
引擎: PyTorch
测试硬件: A100
伦理考量
NVIDIA认为可信赖的AI是一项共同责任,我们已制定政策和实践以支持广泛AI应用的开发。在下载或按照服务条款使用时,开发者应与其内部模型团队合作,确保该模型符合相关行业和使用场景的要求,并解决意外的产品误用问题。
有关该模型伦理考量的更多详细信息,请参阅以下Model Card++可解释性、偏见、安全与隐私子卡。
请在此处报告安全漏洞或NVIDIA AI问题链接。
偏见
字段 |
回应 |
在模型设计和测试中考虑受保护群体([受保护类别](https://www.senate.ca.gov/content/protected-classes)的参与情况: |
无 |
采取的减轻不必要偏见的措施: |
无 |
可解释性
字段 |
回应 |
预期应用与领域: |
视觉特征提取 |
模型类型: |
视觉Transformer |
目标用户: |
下游视觉应用开发者 |
输出: |
图像嵌入 |
描述模型工作原理: |
模型接收图像输入,通过多个Transformer块处理图像,输出摘要和补丁嵌入。 |
已测试确保对以下受不利影响群体提供可比结果的组别: |
不适用 |
技术限制: |
该模型生成的图像嵌入可被下游模型用于(例如)图像分类。下游模型需训练以利用视觉嵌入。 |
已验证符合NVIDIA规定的质量标准: |
是 |
性能指标: |
图像分类准确率、语义分割平均交并比。 |
潜在已知风险: |
该模型仅在256至2048像素(以16像素为增量)的输入分辨率上测试。此外,生成的嵌入可能无法区分人类认为明显的差异(例如,显示不同犬种的两张图像可能产生非常相似的嵌入)。目标应用需进行领域特定评估。 |
许可: |
NVIDIA开放模型许可证 |
隐私
字段 |
回应 |
可生成或逆向工程的个人数据? |
无 |
用于创建模型的个人数据? |
无 |
数据集审查频率? |
每次发布前 |
所有训练数据集是否可追溯? |
是 |
数据标注(注释、元数据)是否符合隐私法? |
是 |
数据是否合规于数据主体对数据更正或删除的请求(如提出此类请求)? |
是 |
安全
字段 |
回应 |
模型应用: |
生成视觉嵌入 |
描述生命关键影响(如适用)。 |
不适用 |
使用限制: |
遵守NVIDIA开放模型许可协议 |
模型和数据集限制: |
应用最小权限原则(PoLP)限制数据集生成和模型开发的访问。训练期间限制数据集访问,并遵守数据集许可约束。 |