许可证: 其他
许可证名称: NVIDIA开放模型许可证
许可证链接: https://www.nvidia.com/en-us/agreements/enterprise-software/nvidia-open-model-license
数据集:
- nvidia/Cosmos-Reason1-SFT-Dataset
- nvidia/Cosmos-Reason1-RL-Dataset
- nvidia/Cosmos-Reason1-Benchmark
库名称: transformers
语言:
- 英语
基础模型:
- Qwen/Qwen2.5-VL-7B-Instruct
标签:
- nvidia
- cosmos
Cosmos-Reason1: 物理AI常识与具身推理模型
Cosmos | 代码 | 论文 | 论文网站
模型概述
描述:
Cosmos-Reason1模型: 物理AI模型能够理解物理常识,并通过长链思维推理过程生成自然语言形式的具身决策。
Cosmos-Reason1模型通过监督微调和强化学习,使用物理常识和具身推理数据进行后训练。这些是能够理解空间、时间和基础物理的物理AI模型,可以作为规划模型来推理具身智能体的下一步行动。
该模型已准备好用于商业用途。
模型开发者: NVIDIA
模型版本
Cosmos-Reason1包括以下模型:
许可证:
本模型根据NVIDIA开放模型许可证发布。如需定制许可证,请联系cosmos-license@nvidia.com。
根据NVIDIA开放模型许可证,NVIDIA确认:
- 模型可用于商业用途。
- 您可以自由创建和分发衍生模型。
- NVIDIA不主张对使用模型或衍生模型生成的任何输出拥有所有权。
重要提示: 如果您绕过、禁用、降低效能或规避模型中的任何技术限制、安全护栏或相关安全护栏超参数、加密、安全、数字版权管理或认证机制(统称为“护栏”),而没有为您的用例实施基本相似的适当护栏,则根据本协议NVIDIA开放模型许可证协议的权利将自动终止。
部署地域:
全球
使用场景:
物理AI: 空间、时间、基础物理理解及具身推理,涵盖机器人和自动驾驶车辆(AV)。
发布日期:
模型架构:
架构类型: 由视觉Transformer(ViT)作为视觉编码器和密集Transformer模型作为LLM组成的多模态LLM。
网络架构: Qwen2.5-VL-7B-Instruct。
Cosmos-Reason-7B基于Qwen2.5-VL-7B-Instruct进行后训练,并遵循相同的模型架构。
输入
输入类型: 文本+视频/图像
输入格式:
输入参数:
- 文本: 一维(1D)
- 视频: 三维(3D)
- 图像: 二维(2D)
其他输入相关属性:
- 使用
FPS=4
作为输入视频以匹配训练设置。
- 在系统提示中附加
以以下格式回答问题: <think>\n你的推理\n</think>\n\n<answer>\n你的答案\n</answer>.
以鼓励长链思维推理响应。
输出
输出类型: 文本
输出格式: 字符串
输出参数: 文本: 一维(1D)
其他输出相关属性:
- 建议使用4096或更多的输出最大标记数,以避免长链思维响应被截断。
- 我们的AI模型设计并/或优化为在NVIDIA GPU加速系统上运行。通过利用NVIDIA的硬件(如GPU核心)和软件框架(如CUDA库),与仅使用CPU的解决方案相比,模型实现了更快的训练和推理时间。
软件集成
运行时引擎:
支持的硬件微架构兼容性:
- NVIDIA Blackwell
- NVIDIA Hopper
注意: 我们仅测试了使用BF16精度进行推理。
操作系统:
使用方法
详见Cosmos-Reason1。
评估
请参阅我们的技术论文了解关于物理常识和具身推理的详细评估。部分评估数据集发布在Cosmos-Reason1-Benchmark中。具身推理数据集和基准测试关注以下领域: 机器人(RoboVQA, BridgeDataV2, Agibot, RobFail)、自我中心的人类演示(HoloAssist)和自动驾驶车辆(AV)驾驶视频数据。AV数据集由NVIDIA收集和标注。
所有数据集都经过技术论文中描述的数据标注过程,以准备训练和评估数据及标注。
数据收集方法:
- RoboVQA: 混合: 自动/传感器
- BridgeDataV2: 自动/传感器
- AgiBot: 自动/传感器
- RoboFail: 自动/传感器
- HoloAssist: 人工
- AV: 自动/传感器
标注方法:
- RoboVQA: 混合: 人工,自动化
- BridgeDataV2: 混合: 人工,自动化
- AgiBot: 混合: 人工,自动化
- RoboFail: 混合: 人工,自动化
- HoloAssist: 混合: 人工,自动化
- AV: 混合: 人工,自动化
指标:
我们在Cosmos-Reason1中介绍的具身推理基准上报告模型准确率。由于额外的训练旨在支持超出基准的更广泛的物理AI任务,结果与表9中呈现的结果有所不同。
数据集格式
模态: 视频(mp4)和文本
数据集量化
我们发布了具身推理数据和基准。每个数据样本是一对视频和文本。文本标注包括Cosmos-Reason1论文中描述的理解和推理标注。每个视频可能有多个文本标注。视频和文本对的数量如下表所示。
AV数据目前不可用,将很快上传!