pipeline_tag: 图像特征提取
AM-RADIO:万域归一
模型概述
作者:Mike Ranzinger, Greg Heinrich, Jan Kautz, Pavlo Molchanov
本模型用于视觉特征提取。例如,RADIO生成的图像嵌入向量可供下游模型进行图像分类。
本模型仅限研发用途。
NVIDIA研究院
参考文献
[论文]
[PHI-S论文]
[BibTex引用][GitHub示例]
模型架构:
架构类型: 神经网络
网络架构: 视觉Transformer
输入:
输入类型: 图像
输入格式: RGB三通道
输入参数: 二维(2D)
其他输入特性: 支持最高2048x2028分辨率(以16像素为增量)
输出:
输出类型: 嵌入向量
输出格式: 张量
输出参数: 二维
其他输出特性: 需配合下游模型使用图像特征
软件集成:
运行引擎:
支持的硬件架构:
- NVIDIA安培架构
- NVIDIA Blackwell架构
- NVIDIA Jetson
- NVIDIA Hopper架构
- NVIDIA Lovelace架构
- NVIDIA帕斯卡架构
- NVIDIA图灵架构
- NVIDIA伏特架构
[推荐/支持]操作系统:
- Linux
- Linux 4 Tegra
- QNX
- Windows
许可协议
RADIO代码及权重遵循NSCLv1许可协议。
预训练模型
模型版本及指标详见model_results.csv
文件。
下载链接: https://huggingface.co/collections/nvidia/radio-669f77f1dd6b153f007dd1c6
HuggingFace中心库
从HuggingFace拉取模型需先登录:
huggingface-cli login
随后可通过Python脚本获取模型:
from transformers import AutoModel
model = AutoModel.from_pretrained("nvidia/RADIO", trust_remote_code=True)
或指定访问令牌:
access_token = "<您的访问令牌>"
model = AutoModel.from_pretrained("nvidia/RADIO", trust_remote_code=True, token=access_token)
使用说明
RADIO将返回包含两个张量的元组。summary
类似于ViT中的cls_token
,用于表征图像整体概念,其形状为$(B,C)$(B为批次维度,C为通道数)。spatial_features
则表征局部特征,适用于语义分割等密集任务或与LLM集成,其形状为$(B,T,D)$(T为空间标记展平维度,D为空间特征通道数)。注意通常$C \neq D$。
转换为空间张量格式需结合模型下采样尺寸与输入张量形状。对于'radio_v1',图像块尺寸为14:
from einops import rearrange
spatial_features = rearrange(spatial_features, 'b (h w) d -> b d h w', h=x.shape[-2] // patch_size, w=x.shape[-1] // patch_size)
最终张量形状为$(B,D,H,W)$,符合计算机视觉模型常规格式。
RADIOv1注意事项
本模型支持输入维度灵活调整,只要宽高均在$[14, 1008]$范围内且能被14整除即可。我们发现当$H=W=378$时($[192, 448]$区间效果均佳)摘要标记效果最佳。对于空间任务,我们使用$H=W=518$进行语义分割线性探测,更高分辨率任务可能表现更优。若使用$1008$分辨率,建议针对该分辨率进行微调以获得最佳效果。
不强制要求$H=W$,但模型未专门针对非正方形输入进行训练测试。
训练、测试与评估数据集:
训练数据集:
链接: https://www.datacomp.ai/
数据采集方式:
- 自动化采集
标注方式:
- 不适用(无需标注)
数据集属性: 通过Common Crawl从互联网收集的128亿张多样化图像
评估数据集:
链接: ImageNet
数据采集方式:
数据集属性: 涵盖1000个物体类别,包含1,281,167张训练图像、50,000张验证图像和100,000张测试图像。
推理:
引擎: PyTorch
测试硬件: A100
引用RADIO
若本项目对您有帮助,请考虑标星并引用:
@InProceedings{Ranzinger_2024_CVPR,
author = {Ranzinger, Mike and Heinrich, Greg and Kautz, Jan and Molchanov, Pavlo},
title = {AM-RADIO: Agglomerative Vision Foundation Model Reduce All Domains Into One},
booktitle = {Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)},
month = {June},
year = {2024},
pages = {12490-12500}
}
@misc{ranzinger2024phisdistributionbalancinglabelfree,
title={PHI-S: Distribution Balancing for Label-Free Multi-Teacher Distillation},
author={Mike Ranzinger and Jon Barker and Greg Heinrich and Pavlo Molchanov and Bryan Catanzaro and Andrew Tao},
year={2024},
eprint={2410.01680},
archivePrefix={arXiv},
primaryClass={cs.LG},
url={https://arxiv.org/abs/2410.01680},
}
伦理考量(仅限NVIDIA模型):
NVIDIA认为可信AI是共同责任,我们已建立政策与实践来支持各类AI应用开发。开发者下载或使用本模型时,应与其内部模型团队协作,确保模型符合相关行业要求、满足用例需求,并防范潜在产品滥用风险。