模型简介
模型特点
模型能力
使用案例
library_name: transformers license: other license_name: nvidia-open-model-license license_link: >- https://www.nvidia.com/en-us/agreements/enterprise-software/nvidia-open-model-license/
pipeline_tag: text-generation language:
- en tags:
- nvidia
- llama-3
- pytorch
Llama-3.3-Nemotron-Super-49B-v1
模型概述
Llama-3.3-Nemotron-Super-49B-v1 是基于 Meta Llama-3.3-70B-Instruct(即参考模型)衍生的大型语言模型(LLM)。该模型经过后训练优化,专注于推理能力、人类对话偏好以及如RAG和工具调用等任务,支持128K tokens的上下文长度。
Llama-3.3-Nemotron-Super-49B-v1 在模型精度与效率之间实现了出色的平衡。效率(吞吐量)直接转化为成本节省。通过创新的神经架构搜索(NAS)方法,我们大幅降低了模型的内存占用,使其能够处理更大规模的工作负载,并可在单块高性能GPU(如H200)上高效运行。此NAS方法允许根据需求在精度-效率权衡中选择最佳平衡点。更多关于NAS方法的细节,请参阅此论文。
模型经历了多阶段的后训练过程,以增强其推理和非推理能力。这包括针对数学、代码、推理和工具调用的监督微调阶段,以及使用REINFORCE(RLOO)和在线奖励感知偏好优化(RPO)算法进行的多个强化学习(RL)阶段,用于对话和指令跟随。最终模型检查点是通过合并最终的SFT和在线RPO检查点获得的。更多训练细节,请参阅我们的技术报告和博客。
该模型属于Llama Nemotron系列。您可以在以下链接找到该系列的其他模型:
此模型已准备好用于商业用途。
许可证/使用条款
管辖条款: 您使用此模型受NVIDIA开放模型许可证约束。
附加信息: Llama 3.3社区许可证协议。基于Llama构建。
模型开发者: NVIDIA
模型训练时间: 2024年11月至2025年2月
数据新鲜度: 预训练数据截止至2023年(基于Meta Llama 3.3 70B)
使用场景:
适用于设计AI代理系统、聊天机器人、RAG系统及其他AI驱动应用的开发者,也适用于常规指令跟随任务。
发布日期:
2025年3月18日
参考文献
- [2505.00949] Llama-Nemotron: Efficient Reasoning Models
- [2411.19146] Puzzle: Distillation-Based NAS for Inference-Optimized LLMs
- [2502.00203] Reward-aware Preference Optimization: A Unified Mathematical Framework for Model Alignment
模型架构
架构类型: 密集解码器专用Transformer模型
网络架构: 基于Llama 3.3 70B Instruct,通过神经架构搜索(NAS)定制
该模型是Meta Llama-3.3-70B-Instruct的衍生版本,采用神经架构搜索(NAS)。NAS算法生成了非标准且非重复的模块,包括:
- 跳跃注意力:某些模块中完全跳过注意力机制,或替换为单一线性层。
- 可变FFN:不同模块间的FFN层扩展/压缩比例不同。
我们采用块级蒸馏方法,为每个模块创建多个变体,提供不同的质量与计算复杂度权衡。随后通过搜索模块组合,构建满足特定吞吐量和内存需求(针对单块H100-80GB GPU优化)的模型,同时最小化质量损失。模型随后进行知识蒸馏(KD),重点优化英语单轮及多轮对话场景。KD阶段包含400亿token的数据集,混合了FineWeb、Buzz-V1.2和Dolma三个数据集。
预期用途
Llama-3.3-Nemotron-Super-49B-v1 是一款通用推理和对话模型,适用于英语及编程语言。其他非英语语言(德语、法语、意大利语、葡萄牙语、印地语、西班牙语和泰语)也得到支持。
输入
- 输入类型: 文本
- 输入格式: 字符串
- 输入参数: 一维(1D)
- 其他输入相关属性: 上下文长度最高131,072 tokens
输出
- 输出类型: 文本
- 输出格式: 字符串
- 输出参数: 一维(1D)
- 其他输出相关属性: 上下文长度最高131,072 tokens
模型版本
1.0(2025年3月18日)
软件集成
- 运行时引擎: Transformers
- 推荐硬件微架构兼容性:
- NVIDIA Hopper
- NVIDIA Ampere
快速入门及使用建议:
- 推理模式(开启/关闭)通过系统提示控制,必须按以下示例设置。所有指令应包含在用户提示中。
- 建议在“推理开启”模式下,将温度设为
0.6
,Top P设为0.95
。 - 建议在“推理关闭”模式下使用贪婪解码。
- 我们为需要特定模板的每个基准测试提供了提示列表。
- 在“推理开启”模式下,若无需推理,模型将包含
<think></think>
标签,此为预期行为。
您可以通过预览API试用此模型:Llama-3_3-Nemotron-Super-49B-v1。
与Transformers一起使用
以下代码片段展示了如何与Hugging Face Transformers库一起使用。推理模式(开启/关闭)通过系统提示控制。请参考以下示例:
建议使用transformers包版本4.48.3。
开启推理的示例:
import torch
import transformers
model_id = "nvidia/Llama-3_3-Nemotron-Super-49B-v1"
model_kwargs = {"torch_dtype": torch.bfloat16, "trust_remote_code": True, "device_map": "auto"}
tokenizer = transformers.AutoTokenizer.from_pretrained(model_id)
tokenizer.pad_token_id = tokenizer.eos_token_id
pipeline = transformers.pipeline(
"text-generation",
model=model_id,
tokenizer=tokenizer,
max_new_tokens=32768,
temperature=0.6,
top_p=0.95,
**model_kwargs
)
thinking = "on"
print(pipeline([{"role": "system", "content": f"detailed thinking {thinking}"},{"role": "user", "content": "Solve x*(sin(x)+2)=0"}]))
关闭推理的示例:
import torch
import transformers
model_id = "nvidia/Llama-3_3-Nemotron-Super-49B-v1"
model_kwargs = {"torch_dtype": torch.bfloat16, "trust_remote_code": True, "device_map": "auto"}
tokenizer = transformers.AutoTokenizer.from_pretrained(model_id)
tokenizer.pad_token_id = tokenizer.eos_token_id
pipeline = transformers.pipeline(
"text-generation",
model=model_id,
tokenizer=tokenizer,
max_new_tokens=32768,
do_sample=False,
**model_kwargs
)
# Thinking可设为"on"或"off"
thinking = "off"
print(pipeline([{"role": "system", "content": f"detailed thinking {thinking}"},{"role": "user", "content": "Solve x*(sin(x)+2)=0"}]))
与vLLM一起使用
pip install vllm==0.8.3
使用vLLM服务的示例:
python3 -m vllm.entrypoints.openai.api_server \
--model "nvidia/Llama-3_3-Nemotron-Super-49B-v1" \
--trust-remote-code \
--seed=1 \
--host="0.0.0.0" \
--port=5000 \
--served-model-name "nvidia/Llama-3_3-Nemotron-Super-49B-v1" \
--tensor-parallel-size=8 \
--max-model-len=32768 \
--gpu-memory-utilization 0.95 \
--enforce-eager
推理:
引擎:
- Transformers
测试硬件:
- FP8:1x NVIDIA H100-80GB GPU(即将推出!)
- BF16:
- 2x NVIDIA H100-80GB
- 2x NVIDIA A100-80GB GPU
[推荐/支持]操作系统: Linux
训练数据集
知识蒸馏阶段使用了多种训练数据,包括FineWeb、Buzz-V1.2和Dolma。
用于代码、数学和推理能力提升的多阶段后训练数据,是SFT和RL数据的组合,旨在增强原始Llama指导模型的数学、代码、通用推理和指令跟随能力。
与此模型发布同时,NVIDIA公开了3000万条后训练数据样本,详见Llama-Nemotron-Postraining-Dataset-v1。
各领域分布如下:
类别 | 数量 |
---|---|
数学 | 19,840,970 |
代码 | 9,612,677 |
科学 | 708,920 |
指令跟随 | 56,339 |
对话 | 39,792 |
安全性 | 31,426 |
提示来源于公开语料库或合成生成。响应由多种模型合成生成,部分提示包含“推理开启”和“关闭”两种模式的响应,以训练模型区分两种模式。
训练数据集的数据收集:
- 混合:自动化、人工、合成
训练数据集的数据标注:
- 混合:自动化、人工、合成
评估数据集
我们使用以下数据集评估Llama-3.3-Nemotron-Super-49B-v1。
评估数据集的数据收集:
- 混合:人工/合成
评估数据集的数据标注:
- 混合:人工/合成/自动
评估结果
这些结果包含“推理开启”和“推理关闭”两种模式。建议在“推理开启”模式下使用温度=0.6
,top_p=0.95
,在“推理关闭”模式下使用贪婪解码。所有评估均在32k序列长度下进行。我们多次运行基准测试(最多16次)并取平均分以提高准确性。
注意:如适用,将提供提示模板。完成基准测试时,请确保按照提供的提示解析正确的输出格式,以复现以下基准测试结果。
Arena-Hard
推理模式 | 分数 |
---|---|
推理关闭 | 88.3 |
MATH500
推理模式 | pass@1 |
---|---|
推理关闭 | 74.0 |
推理开启 | 96.6 |
用户提示模板:
"以下是一个数学问题。我希望你逐步推理,然后给出最终答案。你的最终答案应放在\boxed{}中。\n问题:{question}"
AIME25
推理模式 | pass@1 |
---|---|
推理关闭 | 13.33 |
推理开启 | 58.4 |
用户提示模板:
"以下是一个数学问题。我希望你逐步推理,然后给出最终答案。你的最终答案应放在\boxed{}中。\n问题:{question}"
GPQA
推理模式 | pass@1 |
---|---|
推理关闭 | 50 |
推理开启 | 66.67 |
用户提示模板:
"以下问题的正确答案是什么:{question}\n选项:\nA. {option_A}\nB. {option_B}\nC. {option_C}\nD. {option_D}\n让我们逐步思考,并将最终答案(应为单个字母A、B、C或D)放入\boxed{}"
IFEval
推理模式 | 严格指令 |
---|---|
推理关闭 | 89.21 |
BFCL V2 Live
推理模式 | 分数 |
---|---|
推理关闭 | 73.7 |
用户提示模板:
你是一位函数组合专家。你会收到一个问题及一组可能的函数。
根据问题,你需要进行一次或多次函数/工具调用来实现目的。
如果没有函数可用,请指出。如果给定问题缺少函数所需的参数,
也请指出。你应仅在工具调用部分返回函数调用。
如果你决定调用任何函数,必须将其格式化为<TOOLCALL>[func_name1(params_name1=params_value1, params_name2=params_value2...), func_name2(params)]</TOOLCALL>
响应中不应包含任何其他文本。
以下是你可以调用的函数列表(JSON格式)。
<AVAILABLE_TOOLS>{functions}</AVAILABLE_TOOLS>
{user_prompt}
MBPP 0-shot
推理模式 | pass@1 |
---|---|
推理关闭 | 84.9 |
推理开启 | 91.3 |
用户提示模板:
你是一位极其智能的编码助手,始终能准确可靠地响应用户指令。
@@ 指令
以下是给定问题及测试示例:
{prompt}
请使用Python编程语言解决此问题。
请确保代码包含测试样本中的函数,且这些函数的输入输出格式与测试样本匹配。
请将所有完整代码放在一个代码块中。
代码块格式如下:
```python
# 你的代码
```
MT-Bench
推理模式 | 分数 |
---|---|
推理关闭 | 9.17 |
伦理考量:
NVIDIA认为可信AI是共同责任,我们已建立政策和实践以支持广泛AI应用的开发。在下载或按照服务条款使用时,开发者应与其内部模型团队合作,确保此模型满足相关行业和使用场景的要求,并解决意外产品误用问题。
有关此模型的详细伦理考量,请参阅Model Card++子卡:可解释性、偏见、安全与保障及隐私。
请通过此链接报告安全漏洞或NVIDIA AI相关问题。
引用
@misc{bercovich2025llamanemotronefficientreasoningmodels,
title={Llama-Nemotron: Efficient Reasoning Models},
author={Akhiad Bercovich and Itay Levy and Izik Golan and Mohammad Dabbah and Ran El-Yaniv and Omri Puny and Ido Galil and Zach Moshe and Tomer Ronen and Najeeb Nabwani and Ido Shahaf and Oren Tropp and Ehud Karpas and Ran Zilberstein and Jiaqi Zeng and Soumye Singhal and Alexander Bukharin and Yian Zhang and Tugrul Konuk and Gerald Shen and Ameya Sunil Mahabaleshwarkar and Bilal Kartal and Yoshi Suhara and Olivier Delalleau and Zijia Chen and Zhilin Wang and David Mosallanezhad and Adi Renduchintala and Haifeng Qian and Dima Rekesh and Fei Jia and Somshubra Majumdar and Vahid Noroozi and Wasi Uddin Ahmad and Sean Narenthiran and Aleksander Ficek and Mehrzad Samadi and Jocelyn Huang and Siddhartha Jain and Igor Gitman and Ivan Moshkov and Wei Du and Shubham Toshniwal and George Armstrong and Branislav Kisacanin and Matvei Novikov and Daria Gitman and Evelina Bakhturina and Jane Polak Scowcroft and John Kamalu and Dan Su and Kezhi Kong and Markus Kliegl and Rabeeh Karimi and Ying Lin and Sanjeev Satheesh and Jupinder Parmar and Pritam Gundecha and Brandon Norick and Joseph Jennings and Shrimai Prabhumoye and Syeda Nahida Akter and Mostofa Patwary and Abhinav Khattar and Deepak Narayanan and Roger Waleffe and Jimmy Zhang and Bor-Yiing Su and Guyue Huang and Terry Kong and Parth Chadha and Sahil Jain and Christine Harvey and Elad Segal and Jining Huang and Sergey Kashirsky and Robert McQueen and Izzy Putterman and George Lam and Arun Venkatesan and Sherry Wu and Vinh Nguyen and Manoj Kilaru and Andrew Wang and Anna Warno and Abhilash Somasamudramath and Sandip Bhaskar and Maka Dong and Nave Assaf and Shahar Mor and Omer Ullman Argov and Scot Junkin and Oleksandr Romanenko and Pedro Larroy and Monika Katariya and Marco Rovinelli and Viji Balas and Nicholas Edelman and Anahita Bhiwandiwalla and Muthu Subramaniam and Smita Ithape and Karthik Ramamoorthy and


