R

RADIO

由 nvidia 开发
由NVIDIA研发的视觉特征提取模型,可将图像转换为嵌入向量供下游任务使用
下载量 5,166
发布时间 : 12/11/2023
模型介绍
内容详情
替代品

模型简介

基于视觉Transformer架构的图像特征提取模型,支持灵活输入分辨率,生成的嵌入向量适用于图像分类、语义分割等计算机视觉任务

模型特点

灵活输入分辨率
支持最高2048x2028分辨率输入(以16像素为增量),适应不同应用场景需求
双输出特征
同时输出全局特征(summary)和局部空间特征(spatial_features),满足不同任务需求
大规模预训练
基于128亿张互联网图像的DataComp数据集预训练,具有强大的特征提取能力

模型能力

图像特征提取
图像分类
语义分割
视觉嵌入生成

使用案例

计算机视觉
图像分类
使用RADIO提取的图像嵌入向量作为下游分类器的输入
语义分割
利用RADIO的空间特征进行密集预测任务