library_name: transformers
license: other
license_name: nvidia-open-model-license
license_link: >-
https://www.nvidia.com/en-us/agreements/enterprise-software/nvidia-open-model-license/
pipeline_tag: text-generation
language:
- en
tags:
- nvidia
- llama-3
- pytorch
Llama-3.1-Nemotron-Nano-8B-v1
模型概述
Llama-3.1-Nemotron-Nano-8B-v1 是一个基于 Meta Llama-3.1-8B-Instruct(参考模型)衍生的大型语言模型(LLM)。该模型经过后训练优化,专注于推理能力、人类对话偏好以及任务执行(如RAG和工具调用)。
Llama-3.1-Nemotron-Nano-8B-v1 在模型精度与效率之间实现了出色平衡。它基于Llama 3.1 8B Instruct改进而来,支持128K上下文长度,可单卡部署在RTX GPU上本地运行。
模型通过多阶段后训练流程增强推理与非推理能力,包括数学/代码/推理/工具调用的监督微调阶段,以及采用REINFORCE(RLOO)和在线奖励感知偏好优化(RPO)算法进行的多轮强化学习(RL)阶段。最终模型通过合并SFT与在线RPO检查点获得,并融合了Qwen的技术改进。
本模型属于Llama Nemotron系列,同系列其他模型参见:
Llama-3.3-Nemotron-Super-49B-v1
本模型已开放商用授权。
许可条款
使用本模型需遵守NVIDIA开放模型许可协议,附加条款参考Llama 3.1社区许可协议。基于Llama构建。
开发方: NVIDIA
训练周期: 2024年8月至2025年3月
数据时效: 预训练数据截止至2023年(遵循Meta Llama 3.1 8B标准)
应用场景
适用于AI智能体系统、聊天机器人、RAG系统等AI应用开发,以及常规指令跟随任务。在模型精度与计算效率(支持单卡RTX GPU本地部署)间取得平衡。
发布日期
2025年3月18日
参考文献
模型架构
架构类型: 稠密解码器专用Transformer
网络架构: Llama 3.1 8B Instruct
使用范围
Llama-3.1-Nemotron-Nano-8B-v1是通用型推理与对话模型,主要支持英语和编程语言,同时兼容德语、法语、意大利语、葡萄牙语、印地语、西班牙语和泰语等其他语种。
输入:
- 类型: 文本
- 格式: 字符串
- 参数: 一维(1D)
- 其他特性: 支持最长131,072 tokens的上下文
输出:
- 类型: 文本
- 格式: 字符串
- 参数: 一维(1D)
- 其他特性: 支持最长131,072 tokens的上下文
模型版本:
1.0(2025年3月18日)
软件集成
- 运行引擎: NeMo 24.12
- 推荐硬件架构:
- NVIDIA Hopper
- NVIDIA Ampere
快速使用指南:
- 通过系统提示词控制推理模式(ON/OFF),所有指令应包含在用户提示中
- 推理ON模式推荐参数:温度
0.6
,Top P0.95
- 推理OFF模式建议使用贪心解码
- 各基准测试需使用特定模板时,我们提供了对应的提示词示例
- 推理ON模式下若无需推理步骤,模型会输出
<think></think>
标签,此为正常现象
可通过预览API体验模型:Llama-3.1-Nemotron-Nano-8B-v1。
以下为Hugging Face Transformers库的使用示例(需4.44.2及以上版本):
推理ON模式示例
import torch
import transformers
model_id = "nvidia/Llama-3.1-Nemotron-Nano-8B-v1"
model_kwargs = {"torch_dtype": torch.bfloat16, "device_map": "auto"}
tokenizer = transformers.AutoTokenizer.from_pretrained(model_id)
tokenizer.pad_token_id = tokenizer.eos_token_id
pipeline = transformers.pipeline(
"text-generation",
model=model_id,
tokenizer=tokenizer,
max_new_tokens=32768,
temperature=0.6,
top_p=0.95,
**model_kwargs
)
thinking = "on"
print(pipeline([{"role": "system", "content": f"detailed thinking {thinking}"}, {"role": "user", "content": "解方程 x*(sin(x)+2)=0"}]))
推理OFF模式示例
import torch
import transformers
model_id = "nvidia/Llama-3.1-Nemotron-Nano-8B-v1"
model_kwargs = {"torch_dtype": torch.bfloat16, "device_map": "auto"}
tokenizer = transformers.AutoTokenizer.from_pretrained(model_id)
tokenizer.pad_token_id = tokenizer.eos_token_id
pipeline = transformers.pipeline(
"text-generation",
model=model_id,
tokenizer=tokenizer,
max_new_tokens=32768,
do_sample=False,
**model_kwargs
)
thinking = "off"
print(pipeline([{"role": "system", "content": f"detailed thinking {thinking}"}, {"role": "user", "content": "解方程 x*(sin(x)+2)=0"}]))
若需完全禁用推理步骤(即使模型倾向先思考),可通过预填充助手响应实现:
print(pipeline([{"role": "system", "content": f"detailed thinking {thinking}"}, {"role": "user", "content": "解方程 x*(sin(x)+2)=0"}, {"role":"assistant", "content":"<think>\n</think>"}]))
推理支持
引擎: Transformers
测试硬件:
- BF16:
- RTX 50系列单卡
- RTX 40系列单卡
- RTX 30系列单卡
- H100-80GB单卡
- A100-80GB单卡
推荐操作系统: Linux
训练数据
后训练流程采用多样化数据,包括人工标注数据与合成数据。数学/代码/通用推理能力的提升来源于SFT与RL数据的组合,提示词来自公开语料或合成生成,响应由多种模型合成生成,部分提示包含推理ON/OFF双模式响应以训练模式区分能力。
数据收集方式: 自动化/人工/合成混合
数据标注方式: 不适用
评估数据
采用混合(人工/合成)方式收集与标注的评估数据集。
评估结果
以下结果包含推理ON/OFF双模式,推荐参数:
- 推理ON:温度=
0.6
,top_p=0.95
- 推理OFF:贪心解码
所有测试在32k序列长度下完成,基准测试最多运行16次取平均值。
注意:适用场景下将提供提示模板,请确保按指定格式解析输出以复现结果。
MT-Bench
MATH500
推理模式 |
pass@1 |
OFF |
36.6% |
ON |
95.4% |
提示模板:
"请逐步推理并给出最终答案,结果用\boxed{}标注。\n问题:{question}"
AIME25
推理模式 |
pass@1 |
OFF |
0% |
ON |
47.1% |
GPQA-D
推理模式 |
pass@1 |
OFF |
39.4% |
ON |
54.1% |
提示模板:
"选择题正确答案是?\n选项:\nA. {option_A}\nB. {option_B}\nC. {option_C}\nD. {option_D}\n逐步思考后,将最终选项字母放入\boxed{}"
IFEval平均分
推理模式 |
严格:提示 |
严格:指令 |
OFF |
74.7% |
82.1% |
ON |
71.9% |
79.3% |
BFCL v2实时
推理模式 |
得分 |
OFF |
63.9% |
ON |
63.6% |
提示模板:
<AVAILABLE_TOOLS>{functions}</AVAILABLE_TOOLS>
{user_prompt}
MBPP零样本
推理模式 |
pass@1 |
OFF |
66.1% |
ON |
84.6% |
提示模板:
你是一个卓越的编程助手,请用Python解决以下问题:
{prompt}
确保函数与测试样例匹配,所有代码置于以下格式的代码块中:
```python
# 代码区
```
伦理考量
NVIDIA认为可信AI是共同责任,我们已建立政策与实践来支持广泛AI应用开发。开发者应根据内部模型团队要求,确保模型符合行业与场景需求,并防范潜在滥用风险。
更多伦理考量详见模型卡片++:可解释性、偏差、安全、隐私子卡片。
安全漏洞或AI问题请此处报告。
引用
@misc{bercovich2025llamanemotronefficientreasoningmodels,
title={Llama-Nemotron:高效推理模型},
author={Akhiad Bercovich等},
year={2025},
eprint={2505.00949},
archivePrefix={arXiv},
primaryClass={cs.CL},
url={https://arxiv.org/abs/2505.00949},
}