R

RADIO L

由 nvidia 开发
AM-RADIO是NVIDIA研究院开发的视觉基础模型,采用聚合式架构实现多领域统一表征,适用于各类计算机视觉任务。
下载量 23.27k
发布时间 : 7/23/2024
模型介绍
内容详情
替代品

模型简介

AM-RADIO是一个通用的视觉基础模型,能够同时提取图像的整体概念表征和局部空间特征,支持从图像分类到语义分割等多种计算机视觉任务。

模型特点

双输出表征
同时输出图像整体概念表征(类似ViT的cls_token)和局部空间特征,适应不同粒度的视觉任务需求
多领域统一
通过聚合式架构实现跨领域的视觉特征统一表征
灵活特征转换
支持将空间特征转换为标准(B,D,H,W)张量格式,便于集成到各类计算机视觉流程中

模型能力

图像整体概念表征提取
局部空间特征提取
语义分割支持
LLM视觉特征集成

使用案例

计算机视觉
图像分类
利用summary特征进行图像整体分类
语义分割
使用spatial_features进行像素级预测
多模态系统
LLM视觉输入
为大型语言模型提供视觉特征输入