模型简介
模型特点
模型能力
使用案例
基础模型:
- NVIDIA/Llama-3.1-Nemotron-Nano-8B-v1 库名称: transformers 许可证: 其他 许可证名称: NVIDIA开放模型许可证 许可证链接: https://www.nvidia.com/en-us/agreements/enterprise-software/nvidia-open-model-license/
管道标签: 文本生成 语言:
- 英语 标签:
- NVIDIA
- Unsloth
- llama-3
- pytorch
Unsloth Dynamic 2.0实现了卓越的准确性,并优于其他领先的量化方法。
Llama-3.1-Nemotron-Nano-8B-v1
模型概述
Llama-3.1-Nemotron-Nano-8B-v1是一个大型语言模型(LLM),它是Meta Llama-3.1-8B-Instruct(又称参考模型)的衍生版本。这是一个推理模型,经过后训练以增强推理能力、人类聊天偏好以及任务执行能力,如RAG和工具调用。
Llama-3.1-Nemotron-Nano-8B-v1是一个在模型准确性和效率之间提供良好平衡的模型。它基于Llama 3.1 8B Instruct构建,并在模型准确性上有所提升。该模型可以安装在单个RTX GPU上,并可在本地使用。模型支持128K的上下文长度。
该模型经过多阶段的后训练过程,以增强其推理和非推理能力。这包括针对数学、代码、推理和工具调用的监督微调阶段,以及使用REINFORCE(RLOO)和在线奖励感知偏好优化(RPO)算法进行聊天和指令跟随的多个强化学习(RL)阶段。最终模型检查点是通过合并最终的SFT和在线RPO检查点获得的。使用Qwen进行了改进。
该模型是Llama Nemotron系列的一部分。您可以在此系列中找到其他模型: Llama-3.3-Nemotron-Super-49B-v1
该模型已准备好用于商业用途。
许可证/使用条款
管辖条款:您使用该模型受NVIDIA开放模型许可证的约束。附加信息:Llama 3.1社区许可证协议。基于Llama构建。
模型开发者: NVIDIA
模型日期: 训练于2024年8月至2025年3月之间
数据新鲜度: 预训练数据的截止时间为2023年,与Meta Llama 3.1 8B一致
使用案例:
设计AI代理系统、聊天机器人、RAG系统和其他AI驱动应用的开发者。也适用于典型的指令跟随任务。平衡模型准确性和计算效率(该模型可以安装在单个RTX GPU上,并可在本地使用)。
发布日期:
2025年3月18日
参考文献
- [2505.00949] Llama-Nemotron: Efficient Reasoning Models
- [2502.00203] Reward-aware Preference Optimization: A Unified Mathematical Framework for Model Alignment
模型架构
架构类型: 密集解码器专用Transformer模型
网络架构: Llama 3.1 8B Instruct
预期用途
Llama-3.1-Nemotron-Nano-8B-v1是一个通用推理和聊天模型,旨在用于英语和编程语言。其他非英语语言(德语、法语、意大利语、葡萄牙语、印地语、西班牙语和泰语)也受支持。
输入:
- 输入类型: 文本
- 输入格式: 字符串
- 输入参数: 一维(1D)
- 其他与输入相关的属性: 上下文长度可达131,072个标记
输出:
- 输出类型: 文本
- 输出格式: 字符串
- 输出参数: 一维(1D)
- 其他与输出相关的属性: 上下文长度可达131,072个标记
模型版本:
1.0(2025年3月18日)
软件集成
- 运行时引擎: NeMo 24.12
- 推荐的硬件微架构兼容性:
- NVIDIA Hopper
- NVIDIA Ampere
快速入门和使用建议:
- 推理模式(开启/关闭)通过系统提示控制,必须按照以下示例设置。所有指令应包含在用户提示中
- 我们建议在推理开启模式下将温度设置为
0.6
,Top P设置为0.95
- 我们建议在推理关闭模式下使用贪婪解码
- 我们提供了用于评估的提示列表,其中需要特定模板
- 在推理开启模式下,如果不需要推理,模型将包含
<think></think>
,这是预期行为
您可以通过预览API试用此模型,使用此链接:Llama-3.1-Nemotron-Nano-8B-v1。
以下是与Hugging Face Transformers库一起使用的代码片段。推理模式(开启/关闭)通过系统提示控制。请参见以下示例。
我们的代码要求transformers包版本为4.44.2
或更高。
“推理开启”示例:
import torch
import transformers
model_id = "nvidia/Llama-3.1-Nemotron-Nano-8B-v1"
model_kwargs = {"torch_dtype": torch.bfloat16, "device_map": "auto"}
tokenizer = transformers.AutoTokenizer.from_pretrained(model_id)
tokenizer.pad_token_id = tokenizer.eos_token_id
pipeline = transformers.pipeline(
"text-generation",
model=model_id,
tokenizer=tokenizer,
max_new_tokens=32768,
temperature=0.6,
top_p=0.95,
**model_kwargs
)
# 思考可以是"on"或"off"
thinking = "on"
print(pipeline([{"role": "system", "content": f"detailed thinking {thinking}"}, {"role": "user", "content": "Solve x*(sin(x)+2)=0"}]))
“推理关闭”示例:
import torch
import transformers
model_id = "nvidia/Llama-3.1-Nemotron-Nano-8B-v1"
model_kwargs = {"torch_dtype": torch.bfloat16, "device_map": "auto"}
tokenizer = transformers.AutoTokenizer.from_pretrained(model_id)
tokenizer.pad_token_id = tokenizer.eos_token_id
pipeline = transformers.pipeline(
"text-generation",
model=model_id,
tokenizer=tokenizer,
max_new_tokens=32768,
do_sample=False,
**model_kwargs
)
# 思考可以是"on"或"off"
thinking = "off"
print(pipeline([{"role": "system", "content": f"detailed thinking {thinking}"}, {"role": "user", "content": "Solve x*(sin(x)+2)=0"}]))
对于某些提示,即使思考被禁用,模型也会倾向于在回答前思考。但如果需要,用户可以通过预填充助手响应来防止这种情况。
import torch
import transformers
model_id = "nvidia/Llama-3.1-Nemotron-Nano-8B-v1"
model_kwargs = {"torch_dtype": torch.bfloat16, "device_map": "auto"}
tokenizer = transformers.AutoTokenizer.from_pretrained(model_id)
tokenizer.pad_token_id = tokenizer.eos_token_id
# 思考可以是"on"或"off"
thinking = "off"
pipeline = transformers.pipeline(
"text-generation",
model=model_id,
tokenizer=tokenizer,
max_new_tokens=32768,
do_sample=False,
**model_kwargs
)
print(pipeline([{"role": "system", "content": f"detailed thinking {thinking}"}, {"role": "user", "content": "Solve x*(sin(x)+2)=0"}, {"role":"assistant", "content":"<think>\n</think>"}]))
推理:
引擎: Transformers 测试硬件:
- BF16:
- 1x RTX 50系列GPU
- 1x RTX 40系列GPU
- 1x RTX 30系列GPU
- 1x H100-80GB GPU
- 1x A100-80GB GPU
首选/支持的操作系统: Linux
训练数据集
后训练管道使用了多种训练数据,包括手动注释的数据和合成数据。
用于改进代码、数学和推理能力的多阶段后训练阶段的数据是SFT和RL数据的汇编,支持改进原始Llama指导模型的数学、代码、一般推理和指令跟随能力。
提示来源于公共和开放语料库或合成生成。响应由多种模型合成生成,一些提示包含推理开启和关闭模式的响应,以训练模型区分两种模式。
训练数据集的数据收集:
- 混合:自动化、人工、合成
训练数据集的数据标注:
- 不适用
评估数据集
我们使用以下数据集评估Llama-3.1-Nemotron-Nano-8B-v1。
评估数据集的数据收集: 混合:人工/合成
评估数据集的数据标注: 混合:人工/合成/自动
评估结果
这些结果包含“推理开启”和“推理关闭”。我们建议在“推理开启”模式下使用温度=0.6
,top_p=0.95
,在“推理关闭”模式下使用贪婪解码。所有评估均在32k序列长度下完成。我们运行基准测试多达16次并平均分数以提高准确性。
注意:在适用的情况下,将提供提示模板。完成基准测试时,请确保按照提供的提示解析正确的输出格式,以重现以下基准测试。
MT-Bench
推理模式 | 分数 |
---|---|
推理关闭 | 7.9 |
推理开启 | 8.1 |
MATH500
推理模式 | pass@1 |
---|---|
推理关闭 | 36.6% |
推理开启 | 95.4% |
用户提示模板:
"以下是一个数学问题。我希望你通过步骤推理,然后给出最终答案。你的最终答案应该在\boxed{}中。\n问题: {question}"
AIME25
推理模式 | pass@1 |
---|---|
推理关闭 | 0% |
推理开启 | 47.1% |
用户提示模板:
"以下是一个数学问题。我希望你通过步骤推理,然后给出最终答案。你的最终答案应该在\boxed{}中。\n问题: {question}"
GPQA-D
推理模式 | pass@1 |
---|---|
推理关闭 | 39.4% |
推理开启 | 54.1% |
用户提示模板:
"这个问题的正确答案是什么: {question}\n选项:\nA. {option_A}\nB. {option_B}\nC. {option_C}\nD. {option_D}\n让我们一步步思考,并将最终答案(应该是单个字母A、B、C或D)放入\boxed{}"
IFEval 平均值
推理模式 | 严格:提示 | 严格:指令 |
---|---|---|
推理关闭 | 74.7% | 82.1% |
推理开启 | 71.9% | 79.3% |
BFCL v2 Live
推理模式 | 分数 |
---|---|
推理关闭 | 63.9% |
推理开启 | 63.6% |
用户提示模板:
<AVAILABLE_TOOLS>{functions}</AVAILABLE_TOOLS>
{user_prompt}
MBPP 0-shot
推理模式 | pass@1 |
---|---|
推理关闭 | 66.1% |
推理开启 | 84.6% |
用户提示模板:
你是一个异常智能的编码助手,始终准确可靠地响应用户指令。
@@ 指令
以下是给定的问题和测试示例:
{prompt}
请使用python编程语言解决这个问题。
请确保你的代码包含测试样本中的函数,并且这些函数的输入和输出格式与测试样本匹配。
请在一个代码块中返回所有完成的代码。
此代码块应采用以下格式:
```python
# 你的代码在这里
```
伦理考虑:
NVIDIA认为可信赖的AI是一项共同责任,我们已制定政策和实践,以支持广泛AI应用的开发。当按照我们的服务条款下载或使用时,开发者应与内部模型团队合作,确保该模型满足相关行业和用例的要求,并解决意外的产品滥用问题。
有关该模型的伦理考虑的更多详细信息,请参阅Model Card++ 可解释性、偏见、安全与安全和隐私子卡。
请在此处报告安全漏洞或NVIDIA AI问题here。
引用
@misc{bercovich2025llamanemotronefficientreasoningmodels,
title={Llama-Nemotron: Efficient Reasoning Models},
author={Akhiad Bercovich and Itay Levy and Izik Golan and Mohammad Dabbah and Ran El-Yaniv and Omri Puny and Ido Galil and Zach Moshe and Tomer Ronen and Najeeb Nabwani and Ido Shahaf and Oren Tropp and Ehud Karpas and Ran Zilberstein and Jiaqi Zeng and Soumye Singhal and Alexander Bukharin and Yian Zhang and Tugrul Konuk and Gerald Shen and Ameya Sunil Mahabaleshwarkar and Bilal Kartal and Yoshi Suhara and Olivier Delalleau and Zijia Chen and Zhilin Wang and David Mosallanezhad and Adi Renduchintala and Haifeng Qian and Dima Rekesh and Fei Jia and Somshubra Majumdar and Vahid Noroozi and Wasi Uddin Ahmad and Sean Narenthiran and Aleksander Ficek and Mehrzad Samadi and Jocelyn Huang and Siddhartha Jain and Igor Gitman and Ivan Moshkov and Wei Du and Shubham Toshniwal and George Armstrong and Branislav Kisacanin and Matvei Novikov and Daria Gitman and Evelina Bakhturina and Jane Polak Scowcroft and John Kamalu and Dan Su and Kezhi Kong and Markus Kliegl and Rabeeh Karimi and Ying Lin and Sanjeev Satheesh and Jupinder Parmar and Pritam Gundecha and Brandon Norick and Joseph Jennings and Shrimai Prabhumoye and Syeda Nahida Akter and Mostofa Patwary and Abhinav Khattar and Deepak Narayanan and Roger Waleffe and Jimmy Zhang and Bor-Yiing Su and Guyue Huang and Terry Kong and Parth Chadha and Sahil Jain and Christine Harvey and Elad Segal and Jining Huang and Sergey Kashirsky and Robert McQueen and Izzy Putterman and George Lam and Arun Venkatesan and Sherry Wu and Vinh Nguyen and Manoj Kilaru and Andrew Wang and Anna Warno and Abhilash Somasamudramath and Sandip Bhaskar and Maka Dong and Nave Assaf and Shahar Mor and Omer Ullman Argov and Scot Junkin and Oleksandr Romanenko and Pedro Larroy and Monika Katariya and Marco Rovinelli and Viji Balas and Nicholas Edelman and Anahita Bhiwandiwalla and Muthu Subramaniam and Smita Ithape and Karthik Ramamoorthy and Yuting Wu and Suguna Varshini Velury and Omri Almog and Joyjit Daw and Denys Fridman and Erick Galinkin and Michael Evans and Katherine Luna and Leon Derczynski and Nikki Pope and Eileen Long and Seth Schneider and Guillermo Siman and Tomasz Grzegorzek and Pablo Ribalta and Monika Katariya and Joey Conway and Trisha Saar and Ann Guan and Krzysztof Pawelec and Shyamala Prayaga and Oleksii Kuchaiev and Boris Ginsburg and Oluwatobi Olabiyi and Kari Briski and Jonathan Cohen and Bryan Catanzaro and Jonah Alben and Yonatan Geifman and Eric Chung and Chris Alexiuk},
year={2025},
eprint={2505.00949},
archivePrefix={arXiv},
primaryClass={cs.CL},
url={https://arxiv.org/abs/2505.00949},
}


