C

C RADIOv2 B

由 nvidia 开发
C-RADIOv2是NVIDIA开发的视觉特征提取模型,提供多种尺寸版本,适用于图像理解和密集视觉任务。
下载量 404
发布时间 : 1/13/2025
模型介绍
内容详情
替代品

模型简介

该模型基于视觉Transformer架构,用于生成图像嵌入,可被下游模型用于图像分类、语义分割等任务。提供基础版、大型版、巨型版和超巨型版四种参数规模。

模型特点

多尺寸版本
提供从9000万到18亿参数的不同规模版本,适应不同计算需求
长时训练
比v1版本多训练40万步,达到100万步训练量
数据平衡技术
使用逆频率采样进行数据平衡,并通过PHI标准化平衡教师分布
高分辨率支持
支持最高2048x2028像素输入,以16像素为增量

模型能力

图像特征提取
图像级理解
密集视觉处理
视觉语言模型集成

使用案例

计算机视觉
图像分类
使用模型生成的嵌入进行图像分类任务
语义分割
利用空间特征进行像素级语义分割
深度估计
基于图像嵌入估计场景深度
多模态应用
视觉语言模型
将图像特征集成到大型语言模型中