许可证: 其他
许可证名称: NVIDIA开放模型许可证
许可证链接: https://www.nvidia.com/en-us/agreements/enterprise-software/nvidia-open-model-license
数据集:
- nvidia/Cosmos-Reason1-SFT-Dataset
- nvidia/Cosmos-Reason1-RL-Dataset
- nvidia/Cosmos-Reason1-Benchmark
库名称: transformers
语言:
- 英语
基础模型:
- nvidia/Cosmos-Reason1-7B
标签:
- nvidia
- unsloth
- cosmos
Cosmos-Reason1:物理AI常识与具身推理模型
Cosmos | 代码 | 论文 | 论文网站
模型概述
描述:
Cosmos-Reason1模型:物理AI模型能够理解物理常识,并通过长链思维推理过程生成适当的具身决策自然语言。
Cosmos-Reason1模型通过监督微调和强化学习,使用物理常识和具身推理数据进行后训练。这些是物理AI模型,能够理解空间、时间和基础物理,并可以作为规划模型推理具身智能体的下一步行动。
该模型已准备好用于商业用途。
模型开发者:NVIDIA
模型版本
Cosmos-Reason1包括以下模型:
许可证:
本模型根据NVIDIA开放模型许可证发布。如需定制许可证,请联系cosmos-license@nvidia.com。
根据NVIDIA开放模型许可证,NVIDIA确认:
- 模型可用于商业用途。
- 您可以自由创建和分发衍生模型。
- NVIDIA不主张对使用模型或衍生模型生成的任何输出拥有所有权。
重要提示:如果您绕过、禁用、降低或规避任何技术限制、安全护栏或相关的安全护栏超参数、加密、安全、数字版权管理或认证机制(统称为“护栏”),而未针对您的用例实施基本相似的适当护栏,则您在本协议NVIDIA开放模型许可证协议下的权利将自动终止。
部署地理范围:
全球
使用场景:
物理AI:空间、时间、基础物理理解及具身推理,涵盖机器人和自动驾驶车辆(AV)。
发布日期:
模型架构:
架构类型:多模态LLM,包含用于视觉编码的Vision Transformer(ViT)和用于LLM的Dense Transformer模型。
网络架构:Qwen2.5-VL-7B-Instruct。
Cosmos-Reason-7B基于Qwen2.5-VL-7B-Instruct进行后训练,并遵循相同的模型架构。
输入
输入类型:文本+视频/图像
输入格式:
输入参数:
- 文本:一维(1D)
- 视频:三维(3D)
- 图像:二维(2D)
其他与输入相关的属性:
- 使用
FPS=4
作为输入视频以匹配训练设置。
- 在系统提示中附加
Answer the question in the following format: <think>\nyour reasoning\n</think>\n\n<answer>\nyour answer\n</answer>.
以鼓励长链思维推理响应。
输出
输出类型:文本
输出格式:字符串
输出参数:文本:一维(1D)
其他与输出相关的属性:
- 建议使用4096或更多的输出最大标记,以避免长链思维响应被截断。
- 我们的AI模型设计并/或优化以在NVIDIA GPU加速系统上运行。通过利用NVIDIA的硬件(如GPU核心)和软件框架(如CUDA库),与仅使用CPU的解决方案相比,模型实现了更快的训练和推理时间。
软件集成
运行时引擎:
支持的硬件微架构兼容性:
- NVIDIA Blackwell
- NVIDIA Hopper
注意:我们仅测试了使用BF16精度进行推理。
操作系统:
使用方法
详见Cosmos-Reason1。
评估
请参阅我们的技术论文了解关于物理常识和具身推理的详细评估。部分评估数据集在Cosmos-Reason1-Benchmark中发布。具身推理数据集和基准测试关注以下领域:机器人(RoboVQA、BridgeDataV2、Agibot、RobFail)、以自我为中心的人类演示(HoloAssist)和自动驾驶车辆(AV)驾驶视频数据。AV数据集由NVIDIA收集和标注。所有数据集均经过技术论文中描述的数据标注流程,以准备训练和评估数据及标注。
数据收集方法:
- RoboVQA:混合:自动/传感器
- BridgeDataV2:自动/传感器
- AgiBot:自动/传感器
- RoboFail:自动/传感器
- HoloAssist:人工
- AV:自动/传感器
标注方法:
- RoboVQA:混合:人工、自动化
- BridgeDataV2:混合:人工、自动化
- AgiBot:混合:人工、自动化
- RoboFail:混合:人工、自动化
- HoloAssist:混合:人工、自动化
- AV:混合:人工、自动化
指标:
我们在Cosmos-Reason1中介绍的具身推理基准上报告模型准确性。由于旨在支持更广泛的物理AI任务的额外训练,结果与表9中呈现的结果有所不同。
数据集格式
模态:视频(mp4)和文本
数据集量化
我们发布了具身推理数据和基准测试。每个数据样本是视频和文本的对。文本标注包括Cosmos-Reason1论文中描述的理解和推理标注。每个视频可能有多个文本标注。视频和文本对的数量如下表所述。
AV数据目前不可用,将很快上传!
我们发布了所有具身推理数据集的文本标注以及RoboVQA和AV数据集的视频。对于其他数据集,用户可以从原始数据源下载源视频,并通过视频名称找到相应的视频源。保留的RoboFail基准测试用于衡量泛化能力。
推理:
加速引擎:PyTorch、flash attention
测试硬件:H100、A100、GB200
- 至少需要2个GPU卡,多节点需要Infiniband / ROCE连接
伦理考量
NVIDIA认为可信AI是一项共同责任,我们已建立政策和实践以支持广泛AI应用的开发。当按照我们的服务条款下载或使用时,开发者应与其内部模型团队合作,确保该模型符合相关行业和使用场景的要求,并解决意外的产品滥用问题。
用户对模型的输入和输出负责。用户有责任在部署前确保该模型的安全集成,包括实施护栏及其他安全机制。
有关该模型伦理考量的更详细信息,请参阅以下可解释性、偏见、安全与隐私的子卡片。
请在此报告安全漏洞或NVIDIA AI问题。
Plus Plus (++) 承诺
我们重视您、数据集、它们所代表的多样性以及我们所承担的责任。此模型及其相关数据已经:
- 验证符合当前适用的披露法律、法规和行业标准。
- 验证符合适用的隐私标签要求。
- 标注以描述收集者/来源(NVIDIA或第三方)。
- 描述技术限制。
- 审查以确保适当的披露可供NVIDIA数据主体访问、维护并符合其请求。
- 发布前审查。
- 标记已知限制和潜在安全影响。
偏见
字段 |
回答 |
在模型设计和测试中考虑受保护群体受保护类别的参与: |
无 |
采取的减轻不必要偏见的措施: |
训练视频来源包含多种物理体现和环境,包括人类、汽车、单臂机器人、双臂机器人以及室内外环境。通过在众多和多样的物理交互及精选数据集上进行训练,我们努力提供一个不偏向特定体现或环境的模型。 |
可解释性
字段 |
回答 |
预期应用及领域: |
物理AI推理 |
模型类型: |
Transformer |
目标用户: |
物理AI开发者 |
输出: |
文本 |
描述模型工作原理: |
基于输入文本提示和视频生成文本答案 |
技术限制: |
在复杂场景下,模型可能无法准确跟随视频或文本输入。复杂场景示例包括:快速相机移动、重叠的人-物交互、低光照高运动模糊以及多人同时执行不同动作。 |
已验证符合NVIDIA规定的质量标准: |
是 |
性能指标: |
定量和定性评估。Cosmos-Reason1提出了具身推理基准和物理常识基准,通过视觉问答评估准确性。 |
潜在已知风险: |
模型的输出可能生成各种形式的文本,包括可能被视为有毒、冒犯或不雅的内容。 |
许可: |
NVIDIA开放模型许可证 |
隐私
字段 |
回答 |
可生成或逆向工程的个人信息? |
无已知 |
创建此模型时是否使用了受保护类别的数据? |
无已知 |
是否获得了用于创建模型的任何个人数据的同意? |
无已知 |
数据集多久审查一次? |
发布前 |
训练中使用的所有数据集是否有来源证明? |
是 |
数据标注(注释、元数据)是否符合隐私法律? |
是 |
适用的隐私政策 |
NVIDIA隐私政策 |
安全
字段 |
回答 |
模型应用: |
物理AI常识理解及具身推理 |
描述生命关键影响(如存在)。 |
无已知 |
使用场景限制: |
NVIDIA开放模型许可证 |
模型和数据集限制: |
应用最小权限原则(PoLP)限制数据集生成和模型开发的访问。限制在训练期间强制执行数据集访问,并遵守数据集许可约束。模型检查点在Hugging Face上提供,并可能在云提供商的模型目录中提供。 |