C-RADIOv2-B开源视觉特征提取模型 - 多尺寸适配图像理解与密集视觉任务

首页

C RADIOv2 B

由 nvidia 开发

C-RADIOv2是NVIDIA开发的视觉特征提取模型，提供多种尺寸版本，适用于图像理解和密集视觉任务。

图像特征提取

Transformers

开源协议:其他 #多尺度视觉嵌入 #ViT架构 #下游任务适配

下载量 404

发布时间 : 1/13/2025

模型简介

该模型基于视觉Transformer架构，用于生成图像嵌入，可被下游模型用于图像分类、语义分割等任务。提供基础版、大型版、巨型版和超巨型版四种参数规模。

模型特点

多尺寸版本

提供从9000万到18亿参数的不同规模版本，适应不同计算需求

长时训练

比v1版本多训练40万步，达到100万步训练量

数据平衡技术

使用逆频率采样进行数据平衡，并通过PHI标准化平衡教师分布

高分辨率支持

支持最高2048x2028像素输入，以16像素为增量

模型能力

图像特征提取

图像级理解

密集视觉处理

视觉语言模型集成

使用案例

计算机视觉

图像分类

使用模型生成的嵌入进行图像分类任务

语义分割

利用空间特征进行像素级语义分割

深度估计

基于图像嵌入估计场景深度

多模态应用

视觉语言模型

将图像特征集成到大型语言模型中

🚀 图像特征提取模型RADIO

本项目的RADIO模型可进行视觉特征提取，生成图像嵌入，供下游模型进行图像分类等任务。C - RADIOv2有多种尺寸模型可供选择，适用于商业和非商业用途。

🚀 快速开始

代码示例

import torch
from PIL import Image
from transformers import AutoModel, CLIPImageProcessor

hf_repo = "nvidia/C-RADIOv2-B"

image_processor = CLIPImageProcessor.from_pretrained(hf_repo)
model = AutoModel.from_pretrained(hf_repo, trust_remote_code=True)
model.eval().cuda()

image = Image.open('./assets/radio.png').convert('RGB')
pixel_values = image_processor(images=image, return_tensors='pt', do_resize=True).pixel_values
pixel_values = pixel_values.cuda()

summary, features = model(pixel_values)

代码解释

summary 表示整个图像的总体概念，形状为 (B,C)，其中 B 是批次维度，C 是通道数。
spatial_features 表示更局部的内容，适用于密集任务，形状为 (B,T,D)，其中 T 是扁平化的空间标记，D 是空间特征的通道数。

空间特征转换

from einops import rearrange
spatial_features = rearrange(spatial_features, 'b (h w) d -> b d h w', h=x.shape[-2] // patch_size, w=x.shape[-1] // patch_size)

转换后的张量形状为 (B,D,H,W)。

✨ 主要特性

多尺寸模型：C - RADIOv2 模型有 Base（90M 参数）、Large（320M 参数）、Huge（653M 参数）和 Gigantic（1.1B 参数）多种尺寸可供选择。
训练优化：C - RADIOv2 训练了 100 万步（比 v1 多 40 万步），使用逆频率采样进行数据平衡，并使用 PHI 标准化进行教师分布平衡。
广泛应用：生成的嵌入可用于图像级理解、密集处理以及集成到视觉语言模型中。

📚 详细文档

模型概述

[Github] [CVPR 2025] [CVPR 2024]

模型描述

该模型用于视觉特征提取，例如生成图像嵌入，供下游模型进行图像分类。

部署范围

全球可用。

使用场景

图像级理解（如图像分类、整理等）。
密集处理（如语义分割、深度估计等）。
集成到视觉语言模型中。

发布日期

Huggingface：2025 年 3 月 26 日，通过 RADIO 模型集合发布。

参考文献

模型架构

属性	详情
模型类型	神经网络
网络架构	视觉变换器（Vision Transformer）

输入

属性	详情
输入类型	图像
输入格式	红、绿、蓝（RGB）
输入参数	二维（2D）
其他属性	图像分辨率最高可达 2048x2028，增量为 16 像素

输出

属性	详情
输出类型	嵌入
输出格式	张量
输出参数	2D
其他属性	需要下游模型来利用图像特征

软件集成

运行时引擎：TAO - 24.10
支持的硬件微架构：NVIDIA Ampere、NVIDIA Blackwell、NVIDIA Jetson、NVIDIA Hopper、NVIDIA Lovelace、NVIDIA Pascal、NVIDIA Turing、NVIDIA Volta
支持的操作系统：Linux、Linux 4 Tegra、QNX、Windows

模型版本

C - RADIOv2 - B（90M 参数）
C - RADIOv2 - L（320M 参数）
C - RADIOv2 - H（653M 参数）
C - RADIOv2 - G（1.8B 参数）

模型链接

https://huggingface.co/nvidia/C - RADIOv2 - B
https://huggingface.co/nvidia/C - RADIOv2 - L
https://huggingface.co/nvidia/C - RADIOv2 - H
https://huggingface.co/nvidia/C - RADIOv2 - g

训练和评估数据集

训练数据集

数据集名称：NV - CC - Img - Text - Dataset
数据收集方法：自动化
标注方法：不适用（无需标注）
数据属性：7 亿张图像

评估数据集

数据集链接：[ImageNet](https://www.image - net.org/)
数据收集方法：自动化
标注方法：人工
数据属性：该数据集涵盖 1000 个对象类别，包含 1,281,167 张训练图像、50,000 张验证图像和 100,000 张测试图像。

推理

推理引擎：PyTorch
测试硬件：A100

伦理考量

偏差

领域	响应
模型设计和测试中受不利影响群体（受保护类别）的参与考虑	无
减轻不必要偏差的措施	无

可解释性

领域	响应
预期应用和领域	视觉特征提取
模型类型	视觉变换器（Vision Transformer）
预期用户	下游视觉应用的开发者
输出	图像嵌入
描述模型工作原理	模型以图像为输入，通过多个变换器块处理图像，并输出摘要和补丁嵌入。
已测试以确保无论何种情况都能提供可比结果的受不利影响群体	不适用
技术限制	该模型生成的图像嵌入可由下游模型使用，例如下游模型必须经过训练才能利用视觉嵌入进行图像分类。
已验证符合 NVIDIA 规定的质量标准	是
性能指标	图像分类准确率、语义分割平均交并比
潜在已知风险	该模型仅在输入分辨率范围从 256 到 2048（增量为 16 像素）上进行了测试。此外，生成的嵌入可能无法区分人类明显可见的差异（例如，显示不同品种狗的两张图像可能实际上产生非常相似的嵌入）。目标应用需要进行特定领域的评估。
许可	[NVIDIA 开放模型许可协议](https://developer.download.nvidia.com/licenses/nvidia - open - model - license - agreement - june - 2024.pdf)

隐私

领域	响应
是否可生成或逆向工程个人数据	无
是否使用个人数据创建此模型	无
数据集审查频率	每次发布前
训练中使用的所有数据集是否有来源证明	是
数据标注（注释、元数据）是否符合隐私法	是
如果提出请求，数据是否符合数据主体的数据更正或删除请求	是

安全

领域	响应
模型应用	生成视觉嵌入
描述关键生命影响（如果存在）	不适用
使用案例限制	遵守 NVIDIA 开放模型许可协议
模型和数据集限制	应用最小特权原则（PoLP），限制数据集生成和模型开发的访问权限。在训练期间强制执行数据集访问限制，并遵守数据集许可约束。