C-RADIO开源视觉特征提取模型 - 免费生成图像嵌入助力图像分类

首页

C RADIO

由 nvidia 开发

NVIDIA开发的视觉特征提取模型，用于生成图像嵌入，支持下游任务如图像分类。

视觉特征提取

Transformers

开源协议:其他 #视觉特征提取 #多硬件兼容 #高分辨率处理

下载量 398

发布时间 : 5/29/2024

模型简介

C-RADIO是一个视觉变换器模型，专注于从图像中提取特征，生成可用于下游任务的嵌入表示。

模型特点

高效视觉特征提取

能够从图像中提取全局和局部特征，适用于多种计算机视觉任务。

高分辨率支持

支持最高2048x2028分辨率的图像输入，以16像素为增量。

多硬件兼容

支持多种NVIDIA硬件架构，包括Ampere、Blackwell、Jetson等。

模型能力

图像特征提取

生成图像嵌入

支持下游视觉任务

使用案例

计算机视觉

图像分类

使用模型提取的图像嵌入进行图像分类任务。

语义分割

利用模型的空间特征进行密集预测任务如语义分割。

🚀 C - RADIO模型

C - RADIO是一款用于视觉特征提取的模型，它能生成图像嵌入，供下游模型进行图像分类等任务。

🚀 快速开始

环境准备

确保你已经安装了必要的库，如torch、transformers、Pillow、einops等。

代码示例

import torch
from PIL import Image
from transformers import AutoModel, CLIPImageProcessor

hf_repo = "nvidia/C - RADIO"

image_processor = CLIPImageProcessor.from_pretrained(hf_repo)
model = AutoModel.from_pretrained(hf_repo, trust_remote_code=True)
model.eval().cuda()

image = Image.open('./assets/radio.png').convert('RGB')
pixel_values = image_processor(images=image, return_tensors='pt', do_resize=True).pixel_values
pixel_values = pixel_values.cuda()

summary, features = model(pixel_values)

空间特征处理

from einops import rearrange
spatial_features = rearrange(spatial_features, 'b (h w) d -> b d h w', h=x.shape[-2] // patch_size, w=x.shape[-1] // patch_size)

✨ 主要特性

基于视觉Transformer架构，能够有效提取图像特征。
输出包含summary和spatial_features，可满足不同下游任务需求。

📦 安装指南

暂未提供具体安装步骤。

📚 详细文档

模型架构

属性	详情
模型类型	神经网络
网络架构	视觉Transformer

输入信息

属性	详情
输入类型	图像
输入格式	[0, 1]范围内的红、绿、蓝（RGB）像素值
输入参数	二维（2D）
其他输入属性	图像分辨率最大为2048x2028，以16像素为增量

输出信息

属性	详情
输出类型	嵌入
输出格式	张量
输出参数	2D
其他输出属性	需要下游模型来利用图像特征

软件集成

运行时引擎：TAO - 24.10
支持的硬件微架构：NVIDIA Ampere、NVIDIA Blackwell、NVIDIA Jetson、NVIDIA Hopper、NVIDIA Lovelace、NVIDIA Pascal、NVIDIA Turing、NVIDIA Volta
支持的操作系统：Linux、Linux 4 Tegra、QNX、Windows