🚀 宇宙推理1号:物理人工智能常识与具身推理模型
宇宙推理1号(Cosmos-Reason1)是一系列物理人工智能模型,专注于理解物理常识,并通过长链式思维推理过程,以自然语言生成合适的具身决策。这些模型在机器人技术和自动驾驶等领域具有广泛的应用前景。
🚀 快速开始
若要了解宇宙推理1号(Cosmos-Reason1)的详细使用方法,请参考项目代码库。该代码库提供了在具身推理数据集上进行监督微调(supervised fine-tuning)和强化学习(reinforcement learning)的示例。
✨ 主要特性
- 多模态输入:支持文本和视频/图像的输入,能够处理复杂的多模态信息。
- 物理常识理解:通过预训练,模型能够理解空间、时间和基础物理知识,为具身推理提供支持。
- 具身推理能力:可以作为规划模型,对具身智能体的下一步行动进行推理。
- 商业可用性:基于NVIDIA开放模型许可协议,模型可用于商业用途。
📦 安装指南
文档未提供具体安装步骤,可参考项目代码库获取相关信息。
📚 详细文档
模型概述
模型架构
- 架构类型:多模态大语言模型(Multi-modal LLM),由用于视觉编码的视觉变换器(Vision Transformer,ViT)和用于大语言模型的密集变换器模型组成。
- 网络架构:Qwen2.5-VL-7B-Instruct。Cosmos-Reason-7B基于 Qwen2.5-VL-7B-Instruct 进行预训练,并采用相同的模型架构。
输入
- 输入类型:文本 + 视频/图像
- 输入格式:
- 输入参数:
- 文本:一维(1D)
- 视频:三维(3D)
- 图像:二维(2D)
- 其他输入相关属性:
- 输入视频建议使用
FPS=4
以匹配训练设置。
- 在系统提示中添加
Answer the question in the following format: <think>\nyour reasoning\n</think>\n\n<answer>\nyour answer\n</answer>.
以鼓励长链式思维推理响应。
输出
- 输出类型:文本
- 输出格式:字符串
- 输出参数:一维(1D)
- 其他输出相关属性:
- 建议使用4096或更多的输出最大令牌数,以避免长链式思维响应被截断。
- 本AI模型设计并优化为在NVIDIA GPU加速系统上运行。通过利用NVIDIA的硬件(如GPU核心)和软件框架(如CUDA库),与仅使用CPU的解决方案相比,模型可以实现更快的训练和推理速度。
软件集成
- 运行时引擎:vLLM
- 支持的硬件微架构兼容性:NVIDIA Blackwell、NVIDIA Hopper
- 注意事项:仅测试了使用BF16精度进行推理。
- 操作系统:Linux(未在其他操作系统上进行测试)
评估
详细的物理常识和具身推理评估请参考技术论文。部分评估数据集已在 Cosmos-Reason1-Benchmark 上发布。具身推理数据集和基准测试主要关注以下领域:机器人技术(RoboVQA、BridgeDataV2、Agibot、RoboFail)、以自我为中心的人类演示(HoloAssist)和自动驾驶(AV)驾驶视频数据。AV数据集由NVIDIA收集和标注。
数据收集方法
数据集 |
数据收集方法 |
RoboVQA |
混合:自动/传感器 |
BridgeDataV2 |
自动/传感器 |
AgiBot |
自动/传感器 |
RoboFail |
自动/传感器 |
HoloAssist |
人工 |
AV |
自动/传感器 |
标注方法
数据集 |
标注方法 |
RoboVQA |
混合:人工、自动 |
BridgeDataV2 |
混合:人工、自动 |
AgiBot |
混合:人工、自动 |
RoboFail |
混合:人工、自动 |
HoloAssist |
混合:人工、自动 |
AV |
混合:人工、自动 |
评估指标
模型在具身推理基准测试中的准确率如下:
数据集格式
模态:视频(mp4)和文本
数据集量化
我们发布了具身推理数据和基准测试。每个数据样本是一个视频和文本的对。文本标注包括 Cosmos-Reason1论文 中描述的理解和推理标注。每个视频可能有多个文本标注。视频和文本对的数量如下表所示:
目前AV数据不可用,将尽快上传!我们发布了所有具身推理数据集的文本标注,以及RoboVQA和AV数据集的视频。对于其他数据集,用户可以从原始数据源下载源视频,并通过视频名称找到相应的视频源。保留的RoboFail基准测试用于衡量模型的泛化能力。
推理
- 加速引擎:PyTorch、flash attention
- 测试硬件:H100、A100、GB200
- 注意事项:至少需要2张GPU卡,多节点需要Infiniband / ROCE连接
伦理考虑
NVIDIA认为可信AI是一项共同责任,并已制定相关政策和实践,以支持广泛的AI应用开发。当开发者按照我们的服务条款下载或使用本模型时,应与内部模型团队合作,确保该模型符合相关行业和用例的要求,并解决潜在的产品滥用问题。
用户对模型的输入和输出负责。在部署之前,用户有责任确保模型的安全集成,包括实施护栏和其他安全机制。
如需了解本模型的更多伦理考虑细节,请参考以下可解释性、偏差、安全与保障以及隐私子卡片。
请在此报告安全漏洞或NVIDIA AI相关问题。
额外承诺(++)
我们重视用户、数据集及其所代表的多样性,以及我们所承担的责任。本模型及其相关数据已:
- 验证符合当前适用的披露法律、法规和行业标准。
- 验证符合适用的隐私标签要求。
- 标注了收集者/来源(NVIDIA或第三方)。
- 描述了技术限制。
- 审核以确保适当的披露可供NVIDIA数据主体访问、维护,并符合其请求。
- 在发布前进行审核。
- 标记了已知的限制和潜在的安全影响。
偏差
领域 |
响应 |
模型设计和测试中受不利影响群体(受保护类别)的参与考虑 |
无 |
为减轻不必要偏差所采取的措施 |
训练视频源包含多种物理具身和环境,包括室内和室外环境中的人类、汽车、单臂机器人和双臂机器人。通过在大量不同的物理交互和精心策划的数据集上进行训练,我们努力提供一个对某些具身或环境不具有偏差的模型。 |
可解释性
领域 |
响应 |
预期应用和领域 |
物理AI推理 |
模型类型 |
变换器 |
预期用户 |
物理AI开发者 |
输出 |
文本 |
描述模型的工作原理 |
根据输入的文本提示和视频生成文本答案 |
技术限制 |
在具有挑战性的情况下,模型可能无法准确遵循视频或文本输入,例如输入视频显示复杂的场景组成和时间动态。具有挑战性的场景示例包括:快速的相机移动、重叠的人与物体交互、低光照和高运动模糊,以及多人同时执行不同动作。 |
验证是否符合NVIDIA规定的质量标准 |
是 |
性能指标 |
定量和定性评估。Cosmos-Reason1提出了具身推理基准测试和物理常识基准测试,以通过视觉问答评估准确率。 |
潜在已知风险 |
模型的输出可以生成各种形式的文本,包括可能被认为有毒、冒犯性或不适当的内容。 |
许可 |
NVIDIA开放模型许可协议 |
隐私
领域 |
响应 |
是否可生成或逆向工程个人信息? |
未知 |
是否使用受保护类别数据创建此模型? |
未知 |
是否获得使用任何个人数据的同意? |
未知 |
数据集多久审核一次? |
发布前 |
训练中使用的所有数据集是否有来源证明? |
是 |
数据标注(注释、元数据)是否符合隐私法? |
是 |
适用的隐私政策 |
NVIDIA隐私政策 |
安全
领域 |
响应 |
模型应用 |
物理AI常识理解和具身推理 |
描述关键生命影响(如果存在) |
未知 |
使用案例限制 |
NVIDIA开放模型许可协议 |
模型和数据集限制 |
应用最小权限原则(PoLP)限制数据集生成和模型开发的访问权限。在训练期间实施数据集访问限制,并遵守数据集许可约束。模型检查点可在Hugging Face上获取,并可能在云提供商的模型目录中提供。 |
📄 许可证
本模型基于 NVIDIA开放模型许可协议 发布。如需定制许可,请联系 cosmos-license@nvidia.com。
在NVIDIA开放模型许可协议下,NVIDIA确认:
- 模型可用于商业用途。
- 您可以自由创建和分发衍生模型。
- NVIDIA不主张对使用模型或衍生模型生成的任何输出拥有所有权。
⚠️ 重要提示
如果您绕过、禁用、降低效力或规避模型中包含的任何技术限制、安全护栏或相关安全护栏超参数、加密、安全、数字版权管理或认证机制(统称为“护栏”),且没有为您的用例提供实质上类似的护栏,您在本协议(NVIDIA开放模型许可协议)下的权利将自动终止。