license: other
license_name: nvidia-open-model-license
license_link: https://developer.download.nvidia.com/licenses/nvidia-open-model-license-agreement-june-2024.pdf
library_name: transformers
pipeline_tag: image-feature-extraction
模型概述
[Github] [CVPR 2025] [CVPR 2024]
描述
该模型用于执行视觉特征提取任务。
例如,RADIO生成的图像嵌入可被下游模型用于图像分类。
C-RADIOv2模型提供多种规格:
- 基础版(9000万参数)
- 大型版(3.2亿参数)
- 巨型版(6.53亿参数)
- 超巨型版(11亿参数)
C-RADIOv2训练了100万步(比v1多40万步),采用逆频率采样实现数据平衡,并通过PHI标准化技术平衡教师模型分布。
本模型可商用/非商用。
许可条款
使用本模型需遵守NVIDIA开放模型许可协议。
部署地域
全球范围。
应用场景
本模型生成的嵌入向量预期将用于下游应用,例如:
- 图像级理解(图像分类、筛选等)
- 密集处理(语义分割、深度估计等)
- 视觉语言模型集成
发布日期
Huggingface平台:2025年3月26日通过RADIO模型集合发布。
参考文献
模型架构
架构类型: 神经网络
网络架构: 视觉Transformer
输入
输入类型: 图像
输入格式: RGB三通道
输入参数: 二维
其他输入特性: 支持16像素为增量的分辨率,最高2048x2028
输出
输出类型: 嵌入向量
输出格式: 张量
输出参数: 二维
其他输出特性: 需下游模型处理图像特征
使用方式
RADIO将返回包含两个张量的元组。summary
类似于ViT中的cls_token
,用于表征图像整体概念,形状为(B,C)
;spatial_features
则表征局部内容,适用于密集任务(如语义分割)或LLM集成。
import torch
from PIL import Image
from transformers import AutoModel, CLIPImageProcessor
hf_repo = "nvidia/C-RADIOv2-g"
image_processor = CLIPImageProcessor.from_pretrained(hf_repo)
model = AutoModel.from_pretrained(hf_repo, trust_remote_code=True)
model.eval().cuda()
image = Image.open('./assets/radio.png').convert('RGB')
pixel_values = image_processor(images=image, return_tensors='pt', do_resize=True).pixel_values
pixel_values = pixel_values.cuda()
summary, features = model(pixel_values)
空间特征形状为(B,T,D)
,可通过以下方式转换为空间张量格式(RADIO的patch尺寸为16):
from einops import rearrange
spatial_features = rearrange(spatial_features, 'b (h w) d -> b d h w', h=x.shape[-2] // patch_size, w=x.shape[-1] // patch_size)
软件集成
运行时引擎:
支持的硬件架构:
- NVIDIA安培架构
- NVIDIA Blackwell架构
- NVIDIA Jetson
- NVIDIA Hopper架构
- NVIDIA Lovelace架构
- NVIDIA帕斯卡架构
- NVIDIA图灵架构
- NVIDIA伏特架构
[推荐/支持]操作系统:
- Linux
- Linux 4 Tegra
- QNX
- Windows
模型版本
- C-RADIOv2-B(9000万参数)
- C-RADIOv2-L(3.2亿参数)
- C-RADIOv2-H(6.53亿参数)
- C-RADIOv2-G(18亿参数)
链接:
- https://huggingface.co/nvidia/C-RADIOv2-B
- https://huggingface.co/nvidia/C-RADIOv2-L
- https://huggingface.co/nvidia/C-RADIOv2-H
- https://huggingface.co/nvidia/C-RADIOv2-g
训练与评估数据集
训练数据集
NV-CC-Img-Text-Dataset
数据收集方式
标注方式
特性
评估数据集
链接: ImageNet
数据收集方式
标注方式
特性: 涵盖1000个物体类别,包含1,281,167张训练图像、50,000张验证图像和100,000张测试图像。
推理
引擎: PyTorch
测试硬件: A100
伦理考量
NVIDIA认为可信AI是共同责任,我们已建立政策与实践来支持广泛AI应用开发。开发者应根据内部模型团队要求,确保模型符合相关行业标准并防范潜在滥用。
安全漏洞或AI伦理问题请在此提交。
偏见
字段 |
回应 |
受影响群体参与考量 |
无 |
减轻偏见的措施 |
无 |
可解释性
字段 |
回应 |
应用领域 |
视觉特征提取 |
模型类型 |
视觉Transformer |
目标用户 |
下游视觉应用开发者 |
输出 |
图像嵌入 |
工作原理 |
通过多层Transformer块处理图像,输出全局和局部嵌入 |
测试群体 |
不适用 |
技术限制 |
需下游模型处理嵌入向量,输入分辨率需为16像素增量的256-2048范围 |
质量认证 |
符合NVIDIA标准 |
性能指标 |
图像分类准确率、语义分割mIoU |
潜在风险 |
可能无法区分人类易辨别的差异(如不同犬种) |
许可协议 |
NVIDIA开放模型许可 |
隐私
字段 |
回应 |
可生成/逆向个人数据 |
无 |
训练使用个人数据 |
无 |
数据集审查频率 |
每次发布前 |
数据来源可追溯 |
是 |
标注合规性 |
是 |
数据修正/删除机制 |
是 |
安全
字段 |
回应 |
模型应用 |
视觉嵌入生成 |
生命安全影响 |
不适用 |
使用限制 |
遵守NVIDIA开放模型许可 |
访问限制 |
实施最小权限原则,遵守数据集许可约束 |