Openreasoning Nemotron 1.5B

由 nvidia 开发

OpenReasoning-Nemotron-1.5B 是一个基于 Qwen2.5-1.5B-Instruct 的大语言模型，专注于数学、代码和科学解决方案的推理任务。

大型语言模型

Transformers

支持多种语言#数学推理优化 #代码生成增强 #科学问题求解

下载量 225

发布时间 : 7/15/2025

模型简介

该模型是一个推理模型，经过针对数学、代码和科学解决方案生成的后训练，支持高达 64K 输出令牌的评估。

模型特点

高性能推理能力

在一系列具有挑战性的推理基准测试中表现出色，包括数学、代码和科学问题。

多智能体协作

支持通过生成式解决方案选择（GenSelect）进行多智能体协作，提升解决方案质量。

大规模输出支持

支持高达 64K 输出令牌的生成，适合处理复杂任务。

模型能力

数学问题解决

代码生成

科学问题解答

多智能体协作推理

使用案例

竞赛数学

AIME 数学竞赛问题解答

解决 AIME 2024/2025 数学竞赛问题

在 AIME24 上达到 55.5% 的通过率

HMMT 数学竞赛问题解答

解决 HMMT Feb 2025 数学竞赛问题

在 HMMT Feb 25 上达到 31.5% 的通过率

编程竞赛

实时代码基准测试

参与实时代码基准测试（LCB v6 2408 - 2505）

达到 28.6% 的通过率

SciCode 科学编程问题解答

解决 SciCode 科学编程问题

达到 2.2% 的通过率

科学研究

GPQA 科学问题解答

解决 GPQA 科学问题

达到 31.6% 的通过率

MMLU-PRO 科学问题解答

解决 MMLU-PRO 科学问题

达到 47.5% 的通过率

🚀 OpenReasoning-Nemotron-1.5B 概述

OpenReasoning-Nemotron-1.5B 是一个大语言模型（LLM），它基于 Qwen2.5-1.5B-Instruct（即参考模型）衍生而来。这是一个推理模型，经过了针对数学、代码和科学解决方案生成的后训练。我们对该模型进行了高达 64K 输出令牌的评估。OpenReasoning 模型有 1.5B、7B、14B 和 32B 等不同规模可供选择。

此模型可用于商业/非商业研究。

许可证/使用条款

适用条款：上述模型的使用受知识共享署名 4.0 国际许可协议（CC-BY-4.0）约束。
附加信息：Apache 2.0 许可证

✨ 主要特性

推理基准测试成绩

单次尝试通过率的评估结果

我们的模型在一系列具有挑战性的推理基准测试中表现出色。7B、14B 和 32B 模型在其规模类别中持续创造新的最优记录。

模型	人工分析指数*	GPQA	MMLU-PRO	HLE	实时代码基准测试*	SciCode	AIME24	AIME25	HMMT FEB 25
1.5B	31.0	31.6	47.5	5.5	28.6	2.2	55.5	45.6	31.5
7B	54.7	61.1	71.9	8.3	63.3	16.2	84.7	78.2	63.5
14B	60.9	71.6	77.5	10.1	67.8	23.5	87.8	82.0	71.2
32B	64.3	73.1	80.0	11.9	70.2	28.5	89.2	84.0	73.8

* 这是我们对人工分析智能指数的估计，并非官方分数。 * 实时代码基准测试版本 6，日期范围 2408 - 2505。

多智能体协作

OpenReasoning-Nemotron 模型可以通过启动多个并行生成并通过生成式解决方案选择（GenSelect）将它们组合在一起来以“重”模式使用。为了添加此“技能”，我们遵循原始的 GenSelect 训练流程，但不针对选择摘要进行训练，而是使用 DeepSeek R1 0528 671B 的完整推理轨迹。我们仅训练模型为数学问题选择最佳解决方案，但令人惊讶地发现，此能力可直接推广到代码和科学问题！在这种“重”GenSelect 推理模式下，OpenReasoning-Nemotron-32B 模型在数学和编码基准测试中超越了 O3（高）。

GenSelect 评估结果

模型	单次尝试通过率（64 次平均）	64 次多数投票	GenSelect
1.5B
AIME24	55.5	76.7	76.7
AIME25	45.6	70.0	70.0
HMMT Feb 25	31.5	46.7	53.3
7B
AIME24	84.7	93.3	93.3
AIME25	78.2	86.7	93.3
HMMT Feb 25	63.5	83.3	90.0
LCB v6 2408 - 2505	63.4	不适用	67.7
14B
AIME24	87.8	93.3	93.3
AIME25	82.0	90.0	90.0
HMMT Feb 25	71.2	86.7	93.3
LCB v6 2408 - 2505	67.9	不适用	69.1
32B
AIME24	89.2	93.3	93.3
AIME25	84.0	90.0	93.3
HMMT Feb 25	73.8	86.7	96.7
LCB v6 2408 - 2505	70.2	不适用	75.3
HLE	11.8	13.4	15.5

📦 安装指南

文档未提供具体安装步骤，暂不展示。

💻 使用示例

基础用法

import transformers
import torch
model_id = "nvidia/OpenReasoning-Nemotron-1.5B"
pipeline = transformers.pipeline(
    "text-generation",
    model=model_id,
    model_kwargs={"torch_dtype": torch.bfloat16},
    device_map="auto",
)

# 代码生成提示
prompt = """You are a helpful and harmless assistant. You should think step-by-step before responding to the instruction below.
Please use python programming language only.
You must use ```python for just the final solution code block with the following format:
```python
# Your code here

{user} """

数学生成提示

prompt = """Solve the following math problem. Make sure to put the answer (and only answer) inside \boxed{}.

{user}

"""

科学生成提示

你可以参考以下提示 -

https://github.com/NVIDIA/NeMo-Skills/blob/main/nemo_skills/prompt/config/generic/hle.yaml (HLE)

https://github.com/NVIDIA/NeMo-Skills/blob/main/nemo_skills/prompt/config/eval/aai/mcq-4choices-boxed.yaml (用于 GPQA)

https://github.com/NVIDIA/NeMo-Skills/blob/main/nemo_skills/prompt/config/eval/aai/mcq-10choices-boxed.yaml (MMLU-Pro)

messages = [ { "role": "user", "content": prompt.format(user="Write a program to calculate the sum of the first $N$ fibonacci numbers") }, ] outputs = pipeline( messages, max_new_tokens=64000, ) print(outputs[0]["generated_text"][-1]['content'])


若要了解如何在 GenSelect 模式下使用模型，请参阅我们的 [文档](https://nvidia.github.io/NeMo-Skills/releases/openreasoning/evaluation/)。

## 📚 详细文档

### 引用
如果你发现这些数据有用，请引用以下文献：

@article{ahmad2025opencodereasoning, title={OpenCodeReasoning: Advancing Data Distillation for Competitive Coding}, author={Wasi Uddin Ahmad, Sean Narenthiran, Somshubra Majumdar, Aleksander Ficek, Siddhartha Jain, Jocelyn Huang, Vahid Noroozi, Boris Ginsburg}, year={2025}, eprint={2504.01943}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2504.01943}, }

@misc{ahmad2025opencodereasoningiisimpletesttime, title={OpenCodeReasoning-II: A Simple Test Time Scaling Approach via Self-Critique}, author={Wasi Uddin Ahmad and Somshubra Majumdar and Aleksander Ficek and Sean Narenthiran and Mehrzad Samadi and Jocelyn Huang and Siddhartha Jain and Vahid Noroozi and Boris Ginsburg}, year={2025}, eprint={2507.09075}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2507.09075}, }

@misc{moshkov2025aimo2winningsolutionbuilding, title={AIMO-2 Winning Solution: Building State-of-the-Art Mathematical Reasoning Models with OpenMathReasoning dataset}, author={Ivan Moshkov and Darragh Hanley and Ivan Sorokin and Shubham Toshniwal and Christof Henkel and Benedikt Schifferer and Wei Du and Igor Gitman}, year={2025}, eprint={2504.16891}, archivePrefix={arXiv}, primaryClass={cs.AI}, url={https://arxiv.org/abs/2504.16891}, }


### 附加信息
- **部署地域**：全球
- **用例**：此模型适用于从事竞赛数学、代码和科学问题研究的开发者和研究人员。它仅通过监督微调进行训练，以在基准测试中取得优异成绩。
- **发布日期**：2025 年 7 月 16 日通过 [Huggingface](https://huggingface.co/nvidia/OpenReasoning-Nemotron-1.5B/) 发布

### 参考资料
* [2504.01943] OpenCodeReasoning: Advancing Data Distillation for Competitive Coding
* [2504.01943] OpenCodeReasoning: Advancing Data Distillation for Competitive Coding
* [2504.16891] AIMO-2 Winning Solution: Building State-of-the-Art Mathematical Reasoning Models with OpenMathReasoning dataset

### 模型架构
- **架构类型**：密集型仅解码器 Transformer 模型
- **网络架构**：Qwen-1.5B-Instruct 

此模型基于 Qwen2.5-1.5B-Instruct 开发，具有 1.5B 模型参数。
- OpenReasoning-Nemotron-1.5B 基于 Qwen2.5-1.5B-Instruct 开发，具有 1.5B 模型参数。
- OpenReasoning-Nemotron-7B 基于 Qwen2.5-7B-Instruct 开发，具有 7B 模型参数。
- OpenReasoning-Nemotron-14B 基于 Qwen2.5-14B-Instruct 开发，具有 14B 模型参数。
- OpenReasoning-Nemotron-32B 基于 Qwen2.5-32B-Instruct 开发，具有 32B 模型参数。

### 输入
- **输入类型**：文本
- **输入格式**：字符串
- **输入参数**：一维（1D）
- **其他与输入相关的属性**：经过高达 64,000 输出令牌的训练

### 输出
- **输出类型**：文本
- **输出格式**：字符串
- **输出参数**：一维（1D）
- **其他与输出相关的属性**：经过高达 64,000 输出令牌的训练

我们的 AI 模型设计和/或优化为在 NVIDIA GPU 加速系统上运行。通过利用 NVIDIA 的硬件（如 GPU 核心）和软件框架（如 CUDA 库），该模型与仅使用 CPU 的解决方案相比，可实现更快的训练和推理速度。

### 软件集成
- **运行时引擎**：NeMo 2.3.0
- **推荐的硬件微架构兼容性**：NVIDIA Ampere、NVIDIA Hopper
- **首选/支持的操作系统**：Linux

### 模型版本
- 1.0（2025 年 7 月 16 日）
- OpenReasoning-Nemotron-32B
- OpenReasoning-Nemotron-14B
- OpenReasoning-Nemotron-7B
- OpenReasoning-Nemotron-1.5B

### 训练和评估数据集
#### 训练数据集
OpenReasoning-Nemotron-1.5B 的训练语料库由以下数据集的问题组成：[OpenCodeReasoning](https://huggingface.co/datasets/nvidia/OpenCodeReasoning)、[OpenCodeReasoning-II](https://arxiv.org/abs/2507.09075)、[OpenMathReasoning](https://huggingface.co/datasets/nvidia/OpenMathReasoning) 以及 [Llama-Nemotron-Post-Training-Dataset](https://huggingface.co/datasets/nvidia/Llama-Nemotron-Post-Training-Dataset) 中的合成科学问题。所有响应均使用 DeepSeek-R1-0528 生成。我们还未修改地包含了 Llama-Nemotron-Post-Training-Dataset 中的指令跟随和工具调用数据。
- **数据收集方法**：混合：自动、人工、合成
- **标注方法**：混合：自动、人工、合成
- **属性**：来自 OpenCodeReasoning 问题（https://huggingface.co/datasets/nvidia/OpenCodeReasoning）、[OpenMathReasoning](https://huggingface.co/datasets/nvidia/OpenMathReasoning) 和 [Llama-Nemotron-Post-Training-Dataset](https://huggingface.co/datasets/nvidia/Llama-Nemotron-Post-Training-Dataset) 中合成科学问题的 500 万个 DeepSeek-R1-0528 生成响应。我们还未修改地包含了 Llama-Nemotron-Post-Training-Dataset 中的指令跟随和工具调用数据。

#### 评估数据集
我们使用以下基准测试对模型进行全面评估：
- **数学**：AIME 2024/2025、HMMT Feb 2025
- **代码**：LiveCodeBench、SciCode
- **科学**：GPQA、MMLU-PRO、HLE

- **数据收集方法**：混合：自动、人工、合成
- **标注方法**：混合：自动、人工、合成

### 推理
- **加速引擎**：vLLM、Tensor(RT)-LLM
- **测试硬件**：NVIDIA H100 - 80GB

### 伦理考量
NVIDIA 认为可信 AI 是一项共同责任，我们已制定政策和实践，以支持开发广泛的 AI 应用。当按照我们的服务条款下载或使用时，开发者应与其内部模型团队合作，确保该模型满足相关行业和用例的要求，并解决不可预见的产品滥用问题。

有关此模型伦理考量的更多详细信息，请参阅模型卡片++可解释性、偏差、安全性与隐私子卡片。

请 [在此](https://www.nvidia.com/en-us/support/submit-security-vulnerability/) 报告模型质量、风险、安全漏洞或 NVIDIA AI 相关问题。

## 📄 许可证
本项目采用 [知识共享署名 4.0 国际许可协议（CC-BY-4.0）](https://creativecommons.org/licenses/by/4.0/legalcode.en)。