许可证: cc-by-4.0
基础模型:
- Qwen/Qwen2.5-32B
数据集:
- nvidia/OpenMathReasoning
语言:
- en
标签:
- nvidia
- 数学
库名称: transformers
OpenMath-Nemotron-32B
OpenMath-Nemotron-32B 是通过在 OpenMathReasoning 数据集上微调 Qwen/Qwen2.5-32B 创建的。
该模型已准备好用于商业用途。

OpenMath-Nemotron 模型在流行的数学基准测试中取得了最先进的结果。我们以 pass@1 (maj@64) 的形式呈现指标,其中 pass@1 是 64 次生成的平均准确率,maj@64 是多数投票的结果。
有关评估设置的更多详情,请参阅我们的论文。
模型 |
AIME24 |
AIME25 |
HMMT-24-25 |
HLE-Math |
DeepSeek-R1-Distill-Qwen-1.5B |
26.8 (60.0) |
21.4 (36.7) |
14.2 (26.5) |
2.9 (5.0) |
OpenMath-Nemotron-1.5B CoT |
61.6 (80.0) |
49.5 (66.7) |
39.9 (53.6) |
5.4 (5.4) |
OpenMath-Nemotron-1.5B TIR |
52.0 (83.3) |
39.7 (70.0) |
37.2 (60.7) |
2.5 (6.2) |
+ 自生成选择 |
83.3 |
70.0 |
62.2 |
7.9 |
+ 32B 生成选择 |
83.3 |
70.0 |
62.8 |
8.3 |
DeepSeek-R1-Distill-Qwen-7B |
54.4 (80.0) |
38.6 (53.3) |
30.6 (42.9) |
3.3 (5.2) |
OpenMath-Nemotron-7B CoT |
74.8 (80.0) |
61.2 (76.7) |
49.7 (57.7) |
6.6 (6.6) |
OpenMath-Nemotron-7B TIR |
72.9 (83.3) |
57.5 (76.7) |
54.6 (66.3) |
7.8 (10.8) |
+ 自生成选择 |
86.7 |
76.7 |
68.4 |
11.5 |
+ 32B 生成选择 |
86.7 |
76.7 |
69.9 |
11.9 |
DeepSeek-R1-Distill-Qwen-14B |
65.8 (80.0) |
48.4 (60.0) |
40.1 (52.0) |
4.2 (4.8) |
OpenMath-Nemotron-14B-MIX (kaggle) |
73.7 (86.7) |
57.9 (73.3) |
50.5 (64.8) |
5.7 (6.5) |
OpenMath-Nemotron-14B CoT |
76.3 (83.3) |
63.0 (76.7) |
52.1 (60.7) |
7.5 (7.6) |
OpenMath-Nemotron-14B TIR |
76.3 (86.7) |
61.3 (76.7) |
58.6 (70.9) |
9.5 (11.5) |
+ 自生成选择 |
86.7 |
76.7 |
72.4 |
14.1 |
+ 32B 生成选择 |
90.0 |
76.7 |
71.9 |
13.7 |
QwQ-32B |
78.1 (86.7) |
66.5 (76.7) |
55.9 (63.3) |
9.0 (9.5) |
DeepSeek-R1-Distill-Qwen-32B |
66.9 (83.3) |
51.8 (73.3) |
39.9 (51.0) |
4.8 (6.0) |
OpenMath-Nemotron-32B CoT |
76.5 (86.7) |
62.5 (73.3) |
53.0 (59.2) |
8.3 (8.3) |
OpenMath-Nemotron-32B TIR |
78.4 (93.3) |
64.2 (76.7) |
59.7 (70.9) |
9.2 (12.5) |
+ 自生成选择 |
93.3 |
80.0 |
73.5 |
15.7 |
DeepSeek-R1 |
79.1 (86.7) |
64.3 (73.3) |
53.0 (59.2) |
10.5 (11.4) |
我们使用了 OpenMath-Nemotron-14B 的一个版本 模型,在 AIMO-2 Kaggle 竞赛 中获得了第一名!
复现我们的结果
我们用于生成数据和模型的流程是完全开源的!
我们提供了所有说明,以完全复现我们的结果,包括数据生成。
如何使用这些模型?
我们的模型可以在 3 种推理模式下使用:思维链(CoT)、工具集成推理(TIR)和生成解决方案选择(GenSelect)。
要在 CoT 模式下运行推理,可以使用以下示例代码片段。
import transformers
import torch
model_id = "nvidia/OpenMath-Nemotron-32B"
pipeline = transformers.pipeline(
"text-generation",
model=model_id,
model_kwargs={"torch_dtype": torch.bfloat16},
device_map="auto",
)
messages = [
{
"role": "user",
"content": "解决以下数学问题。确保将答案(且仅答案)放在 \\boxed{} 中。\n\n" +
"$a^2+6a-7$ 的最小值是多少?"},
]
outputs = pipeline(
messages,
max_new_tokens=4096,
)
print(outputs[0]["generated_text"][-1]['content'])
要在 TIR 或 GenSelect 模式下运行推理,我们强烈建议使用我们在 NeMo-Skills 中的参考实现。
请注意,这些模型尚未在通用数据上进行指令微调,因此在数学领域之外可能无法提供良好的答案。
引用
如果您发现我们的工作有用,请考虑引用我们!
@article{moshkov2025aimo2,
title = {AIMO-2 获胜解决方案:使用 OpenMathReasoning 数据集构建最先进的数学推理模型},
author = {Ivan Moshkov and Darragh Hanley and Ivan Sorokin and Shubham Toshniwal and Christof Henkel and Benedikt Schifferer and Wei Du and Igor Gitman},
year = {2025},
journal = {arXiv preprint arXiv:2504.16891}
}
附加信息
许可证/使用条款:
管理条款:本模型的使用受 CC-BY-4.0 管辖。
附加信息:Apache License Version 2.0。
部署地理范围:
全球
使用案例:
本模型旨在促进数学推理领域的研究。
发布日期:
Huggingface 2025 年 4 月 23 日
模型架构:
架构类型: Transformer 仅解码器语言模型
网络架构: Qwen2.5
**本模型基于 Qwen2.5-1.5B 开发
** 本模型具有 1.5B 模型参数。
输入:
输入类型: 文本
输入格式: 字符串
输入参数: 一维 (1D)
与输入相关的其他属性: 上下文长度可达 131,072 个标记
输出:
输出类型: 文本
输出格式: 字符串
输出参数: 一维 (1D)
与输出相关的其他属性: 上下文长度可达 131,072 个标记
我们的 AI 模型设计并/或优化为在 NVIDIA GPU 加速系统上运行。通过利用 NVIDIA 的硬件(如 GPU 核心)和软件框架(如 CUDA 库),该模型相比仅 CPU 解决方案实现了更快的训练和推理时间。
软件集成:
运行时引擎:
支持的硬件微架构兼容性:
-
NVIDIA Ampere
-
NVIDIA Hopper
首选操作系统:
模型版本:
OpenMath-Nemotron-1.5B
OpenMath-Nemotron-7B
OpenMath-Nemotron-14B
OpenMath-Nemotron-32B
伦理考量:
NVIDIA 认为可信赖的 AI 是一项共同责任,我们已建立政策和实践,以支持广泛 AI 应用的开发。 当按照我们的服务条款下载或使用时,开发人员应与其内部模型团队合作,确保该模型满足相关行业和使用案例的要求,并解决意外的产品滥用问题。
有关本模型的伦理考量的更详细信息,请参阅模型卡++ 可解释性、偏见、安全与保障 和 隐私 子卡。
请在此链接报告安全漏洞或 NVIDIA AI 相关问题。