模型简介
模型特点
模型能力
使用案例
🚀 宇宙推理1号(Cosmos-Reason1):物理人工智能常识与具身推理模型
宇宙推理1号(Cosmos-Reason1)是一系列物理人工智能模型,能够理解物理常识,并通过长链式思维推理过程,以自然语言生成合适的具身决策。这些模型经过监督微调与强化学习,在物理常识和具身推理数据上进行了后训练,可理解空间、时间和基础物理知识,还能作为规划模型,为具身智能体推理下一步行动。
🚀 快速开始
模型使用
具体使用细节请参考 宇宙推理1号(Cosmos-Reason1)。该仓库提供了在具身推理数据集上进行监督微调与强化学习的示例。
推理示例
from transformers import AutoProcessor
from vllm import LLM, SamplingParams
from qwen_vl_utils import process_vision_info
# 你也可以将 MODEL_PATH 替换为上述提到的 safetensors 文件夹路径
MODEL_PATH = "nvidia/Cosmos-Reason1-7B"
llm = LLM(
model=MODEL_PATH,
limit_mm_per_prompt={"image": 10, "video": 10},
)
sampling_params = SamplingParams(
temperature=0.6,
top_p=0.95,
repetition_penalty=1.05,
max_tokens=4096,
)
video_messages = [
{"role": "system", "content": "你是一个乐于助人的助手。请按照以下格式回答问题:<think>\n你的推理过程\n</think>\n\n<answer>\n你的答案\n</answer>。"},
{"role": "user", "content": [
{"type": "text", "text": (
"右转是否安全?"
)
},
{
"type": "video",
"video": "file:///path/to/your/video.mp4",
"fps": 4,
}
]
},
]
# 这里我们以视频消息为例进行演示
messages = video_messages
processor = AutoProcessor.from_pretrained(MODEL_PATH)
prompt = processor.apply_chat_template(
messages,
tokenize=False,
add_generation_prompt=True,
)
image_inputs, video_inputs, video_kwargs = process_vision_info(messages, return_video_kwargs=True)
mm_data = {}
if image_inputs is not None:
mm_data["image"] = image_inputs
if video_inputs is not None:
mm_data["video"] = video_inputs
llm_inputs = {
"prompt": prompt,
"multi_modal_data": mm_data,
# FPS 将在 video_kwargs 中返回
"mm_processor_kwargs": video_kwargs,
}
outputs = llm.generate([llm_inputs], sampling_params=sampling_params)
generated_text = outputs[0].outputs[0].text
print(generated_text)
⚠️ 重要提示
建议输入视频使用
fps=4
,并设置max_tokens=4096
以避免响应被截断。
✨ 主要特性
- 物理常识理解:能够理解空间、时间和基础物理知识。
- 具身推理能力:可作为规划模型,为具身智能体推理下一步行动。
- 多模态输入:支持文本和视频/图像作为输入。
- 长链式思维推理:通过特定的系统提示,可生成包含推理过程的长响应。
- 商业可用性:模型可用于商业用途。
📦 安装指南
文档未提及具体安装步骤,可参考 宇宙推理1号(Cosmos-Reason1) 获取相关信息。
📚 详细文档
模型概述
模型描述
宇宙推理1号(Cosmos-Reason1)模型是经过监督微调与强化学习,在物理常识和具身推理数据上进行后训练的物理人工智能模型。这些模型能够理解空间、时间和基础物理知识,并可作为规划模型,为具身智能体推理下一步行动。该模型由 NVIDIA 开发,可用于商业用途。
模型版本
宇宙推理1号(Cosmos-Reason1)包含以下模型:
- 宇宙推理1号 - 7B(Cosmos-Reason1-7B):根据文本提示和输入视频,思考并生成相应的答案。
许可证
该模型遵循 NVIDIA 开放模型许可证。如需定制许可证,请联系 cosmos-license@nvidia.com。
在 NVIDIA 开放模型许可证下,NVIDIA 确认:
- 模型可用于商业用途。
- 你可以自由创建和分发衍生模型。
- NVIDIA 不主张对使用模型或衍生模型生成的任何输出拥有所有权。
重要提示:如果你绕过、禁用、降低效果或规避模型中包含的任何技术限制、安全护栏或相关安全护栏超参数、加密、安全、数字版权管理或认证机制(统称“护栏”),而没有为你的用例提供实质上类似的护栏,你在本协议 NVIDIA 开放模型许可协议 下的权利将自动终止。
部署范围
全球
用例
物理人工智能:空间、时间、基础物理理解和具身推理,包括机器人技术和自动驾驶汽车(AV)。
发布日期
- GitHub:2025 年 5 月 17 日
- Huggingface:2025 年 5 月 17 日
模型架构
- 架构类型:多模态大语言模型(LLM),由用于视觉编码的视觉变换器(ViT)和用于大语言模型的密集变换器模型组成。
- 网络架构:Qwen2.5-VL-7B-Instruct。
宇宙推理 - 7B(Cosmos-Reason-7B)基于 Qwen2.5-VL-7B-Instruct 进行后训练,并遵循相同的模型架构。
输入
属性 | 详情 |
---|---|
输入类型 | 文本 + 视频/图像 |
输入格式 | 文本:字符串;视频:mp4;图像:jpg |
输入参数 | 文本:一维(1D);视频:三维(3D);图像:二维(2D) |
其他输入相关属性 | 输入视频使用 FPS=4 以匹配训练设置;在系统提示中添加 以以下格式回答问题:<think>\n你的推理过程\n</think>\n\n<answer>\n你的答案\n</answer>。 以鼓励长链式思维推理响应。 |
输出
属性 | 详情 |
---|---|
输出类型 | 文本 |
输出格式 | 字符串 |
输出参数 | 文本:一维(1D) |
其他输出相关属性 | 建议使用 4096 或更多的输出最大令牌数,以避免长链式思维响应被截断;我们的人工智能模型设计和/或优化为在 NVIDIA GPU 加速系统上运行。通过利用 NVIDIA 的硬件(如 GPU 核心)和软件框架(如 CUDA 库),与仅使用 CPU 的解决方案相比,模型可实现更快的训练和推理时间。 |
软件集成
运行时引擎
支持的硬件微架构兼容性
- NVIDIA Blackwell
- NVIDIA Hopper
注意:我们仅测试了使用 BF16 精度进行推理。
操作系统
- Linux(我们未在其他操作系统上进行测试。)
评估
请参考我们的 技术论文 以获取关于物理常识和具身推理的详细评估。部分评估数据集已在 宇宙推理1号 - 基准测试(Cosmos-Reason1-Benchmark) 中发布。具身推理数据集和基准测试主要关注以下领域:机器人技术(RoboVQA、BridgeDataV2、Agibot、RobFail)、以自我为中心的人类演示(HoloAssist)和自动驾驶汽车(AV)驾驶视频数据。AV 数据集由 NVIDIA 收集和标注。
所有数据集都经过技术论文中描述的数据标注过程,以准备训练和评估数据及标注。
数据收集方法
数据集 | 数据收集方法 |
---|---|
RoboVQA | 混合:自动/传感器 |
BridgeDataV2 | 自动/传感器 |
AgiBot | 自动/传感器 |
RoboFail | 自动/传感器 |
HoloAssist | 人工 |
AV | 自动/传感器 |
标注方法
数据集 | 标注方法 |
---|---|
RoboVQA | 混合:人工、自动 |
BridgeDataV2 | 混合:人工、自动 |
AgiBot | 混合:人工、自动 |
RoboFail | 混合:人工、自动 |
HoloAssist | 混合:人工、自动 |
AV | 混合:人工、自动 |
评估指标
我们报告了在 宇宙推理1号(Cosmos-Reason1) 中引入的具身推理基准测试上的模型准确率。由于进行了额外的训练以支持基准测试之外的更广泛的物理人工智能任务,结果与表 9 中呈现的结果有所不同。
RoboVQA | AV | BridgeDataV2 | Agibot | HoloAssist | RoboFail | 平均 | |
---|---|---|---|---|---|---|---|
准确率 | 87.3 | 70.8 | 63.7 | 48.9 | 62.7 | 57.2 | 65.1 |
数据集格式
模态:视频(mp4)和文本
数据集量化
我们发布了具身推理数据和基准测试。每个数据样本是一个视频和文本的对。文本标注包括 宇宙推理1号(Cosmos-Reason1) 论文中描述的理解和推理标注。每个视频可能有多个文本标注。视频和文本对的数量如下表所示。
AV 数据目前不可用,将尽快上传!
RoboVQA | AV | BridgeDataV2 | Agibot | HoloAssist | RoboFail | 总存储大小 | |
---|---|---|---|---|---|---|---|
SFT 数据 | 114 万 | 24.7 千 | 25.8 万 | 3.89 万 | 27.3 万 | 不适用 | 300.6GB |
RL 数据 | 252 | 200 | 240 | 200 | 200 | 不适用 | 2.6GB |
基准测试数据 | 110 | 100 | 100 | 100 | 100 | 100 | 1.5GB |
我们发布了所有具身推理数据集的文本标注,以及 RoboVQA 和 AV 数据集的视频。对于其他数据集,用户可以从原始数据源下载源视频,并通过视频名称找到相应的视频源。保留的 RoboFail 基准测试用于衡量泛化能力。
伦理考量
承诺(++)
我们重视你、数据集、它们所代表的多样性以及我们所承担的责任。该模型及其相关数据已:
- 验证符合当前适用的披露法律、法规和行业标准。
- 验证符合适用的隐私标签要求。
- 标注以描述收集者/来源(NVIDIA 或第三方)。
- 描述技术限制。
- 审查以确保适当的披露可供 NVIDIA 数据主体访问、维护并符合其请求。
- 发布前进行审查。
- 标记已知的限制和潜在的安全影响。
偏差
领域 | 响应 |
---|---|
在模型设计和测试中,来自受不利影响群体 受保护类别 的参与考虑: | 无 |
为减轻不必要的偏差所采取的措施: | 训练视频源包含多种物理具身和环境,包括室内和室外环境中的人类、汽车、单臂机器人、双臂机器人。通过在大量不同的物理交互和精心策划的数据集上进行训练,我们努力提供一个对某些具身或环境不具有偏差的模型。 |
可解释性
领域 | 响应 |
---|---|
预期应用和领域: | 物理人工智能推理 |
模型类型: | 变换器(Transformer) |
预期用户: | 物理人工智能开发者 |
输出: | 文本 |
描述模型的工作原理: | 根据输入的文本提示和视频生成文本答案 |
技术限制: | 在具有挑战性的情况下,模型可能无法准确遵循视频或文本输入,例如输入视频显示复杂的场景组成和时间动态。具有挑战性的场景示例包括:快速的相机移动、重叠的人与物体交互、低光照和高运动模糊、多人同时执行不同动作。 |
验证是否符合规定的 NVIDIA 质量标准: | 是 |
性能指标: | 定量和定性评估。宇宙推理1号(Cosmos-Reason1)提出了具身推理基准测试和物理常识基准测试,以通过视觉问答评估准确率。 |
潜在已知风险: | 模型的输出可以生成各种形式的文本,包括可能被认为有毒、冒犯性或不适当的文本。 |
许可: | NVIDIA 开放模型许可证 |
隐私
领域 | 响应 |
---|---|
是否可生成或逆向工程个人信息? | 未知 |
是否使用受保护类别的数据创建此模型? | 未知 |
是否获得了使用任何个人数据的同意? | 未知 |
数据集多久审查一次? | 发布前 |
训练中使用的所有数据集是否有来源证明? | 是 |
数据标注(注释、元数据)是否符合隐私法? | 是 |
适用的隐私政策 | NVIDIA 隐私政策 |
安全
领域 | 响应 |
---|---|
模型应用: | 物理人工智能常识理解和具身推理 |
描述关键生命影响(如果存在): | 未知 |
使用案例限制: | NVIDIA 开放模型许可证 |
模型和数据集限制: | 应用了最小特权原则(PoLP),限制数据集生成和模型开发的访问权限。在训练期间实施了数据集访问限制,并遵守数据集许可约束。模型检查点可在 Hugging Face 上获取,并可能在云提供商的模型目录中提供。 |
请将安全漏洞或 NVIDIA 人工智能问题报告至 此处。
📄 许可证
该模型遵循 NVIDIA 开放模型许可证。如需定制许可证,请联系 cosmos-license@nvidia.com。



