模型简介
模型特点
模型能力
使用案例
base_model:
- nvidia/Llama-3_3-Nemotron-Super-49B-v1 library_name: transformers license: other license_name: nvidia-open-model-license license_link: >- https://www.nvidia.com/en-us/agreements/enterprise-software/nvidia-open-model-license/
pipeline_tag: text-generation language:
- en tags:
- nvidia
- unsloth
- llama-3
- pytorch
Unsloth Dynamic 2.0 实现卓越精度,超越其他领先量化方案。
Llama-3.3-Nemotron-Super-49B-v1
模型概述
Llama-3.3-Nemotron-Super-49B-v1 是一个大型语言模型(LLM),它是 Meta Llama-3.3-70B-Instruct(又称参考模型)的衍生版本。这是一个推理模型,经过后训练以增强推理能力、人类聊天偏好以及任务执行能力,如 RAG 和工具调用。该模型支持 128K tokens 的上下文长度。
Llama-3.3-Nemotron-Super-49B-v1 是一个在模型精度和效率之间实现出色平衡的模型。效率(吞吐量)直接转化为成本节省。通过一种新颖的神经架构搜索(NAS)方法,我们大幅减少了模型的内存占用,使其能够处理更大的工作负载,并能在高负载(如 H200)下适配单块 GPU。这种 NAS 方法允许在精度-效率权衡中选择理想的平衡点。有关 NAS 方法的更多信息,请参阅这篇论文。
该模型经过多阶段的后训练过程,以增强其推理和非推理能力。这包括针对数学、代码、推理和工具调用的监督微调阶段,以及使用 REINFORCE(RLOO)和在线奖励感知偏好优化(RPO)算法进行的多个强化学习(RL)阶段,用于聊天和指令跟随。最终模型检查点是通过合并最终的 SFT 和在线 RPO 检查点获得的。有关模型训练的更多细节,请参阅我们的技术报告和博客。
该模型是 Llama Nemotron 系列的一部分。您可以在此系列中找到其他模型:
该模型已准备好用于商业用途。
许可证/使用条款
管辖条款:您对该模型的使用受NVIDIA 开放模型许可证约束。
附加信息:Llama 3.3 社区许可证协议。基于 Llama 构建。
模型开发者:NVIDIA
模型训练时间:2024 年 11 月至 2025 年 2 月
数据新鲜度:预训练数据的截止时间为 2023 年,与 Meta Llama 3.3 70B 一致。
使用场景:
适用于设计 AI 代理系统、聊天机器人、RAG 系统和其他 AI 驱动应用的开发者。也适用于典型的指令跟随任务。
发布日期:
2025 年 3 月 18 日
参考文献
- [2505.00949] Llama-Nemotron: Efficient Reasoning Models
- [2411.19146] Puzzle: Distillation-Based NAS for Inference-Optimized LLMs
- [2502.00203] Reward-aware Preference Optimization: A Unified Mathematical Framework for Model Alignment
模型架构
架构类型:密集解码器专用 Transformer 模型
网络架构:Llama 3.3 70B Instruct,通过神经架构搜索(NAS)定制
该模型是 Meta 的 Llama-3.3-70B-Instruct 的衍生版本,使用了神经架构搜索(NAS)。NAS 算法产生了非标准且非重复的模块。这包括以下内容:
- 跳过注意力:在某些模块中,注意力被完全跳过,或被替换为单个线性层。
- 可变 FFN:FFN 层中的扩展/压缩比例在不同模块之间有所不同。
我们采用了参考模型的模块级蒸馏方法,为每个模块创建多个变体,提供不同的质量与计算复杂度权衡(下文将详细讨论)。然后,我们搜索这些模块以创建一个满足所需吞吐量和内存(针对单块 H100-80GB GPU 优化)的模型,同时最小化质量下降。随后,模型进行了知识蒸馏(KD),重点关注英语单轮和多轮聊天用例。KD 步骤包括 400 亿 tokens 的混合数据集,包括 FineWeb、Buzz-V1.2 和 Dolma。
预期用途
Llama-3.3-Nemotron-Super-49B-v1 是一个通用推理和聊天模型,旨在用于英语和编程语言。其他非英语语言(德语、法语、意大利语、葡萄牙语、印地语、西班牙语和泰语)也受支持。
输入
- 输入类型:文本
- 输入格式:字符串
- 输入参数:一维(1D)
- 其他输入相关属性:上下文长度可达 131,072 tokens
输出
- 输出类型:文本
- 输出格式:字符串
- 输出参数:一维(1D)
- 其他输出相关属性:上下文长度可达 131,072 tokens
模型版本
1.0(2025 年 3 月 18 日)
软件集成
- 运行时引擎:Transformers
- 推荐的硬件微架构兼容性:
- NVIDIA Hopper
- NVIDIA Ampere
快速入门和使用建议:
- 推理模式(开启/关闭)通过系统提示控制,必须按照以下示例设置。所有指令应包含在用户提示中。
- 对于“推理开启”模式,建议将温度设置为
0.6
,Top P 设置为0.95
。 - 对于“推理关闭”模式,建议使用贪婪解码。
- 我们提供了每个基准测试所需的提示模板列表,用于评估。
- 在“推理开启”模式下,如果不需要推理,模型将包含
<think></think>
,这是预期行为。
您可以通过预览 API 试用此模型,使用此链接:Llama-3_3-Nemotron-Super-49B-v1。
与 Transformers 一起使用
以下代码片段展示了如何与 Hugging Face Transformers 库一起使用。推理模式(开启/关闭)通过系统提示控制。请参阅以下示例。
建议使用 transformers 包,版本为 4.48.3。
推理开启示例:
import torch
import transformers
model_id = "nvidia/Llama-3_3-Nemotron-Super-49B-v1"
model_kwargs = {"torch_dtype": torch.bfloat16, "trust_remote_code": True, "device_map": "auto"}
tokenizer = transformers.AutoTokenizer.from_pretrained(model_id)
tokenizer.pad_token_id = tokenizer.eos_token_id
pipeline = transformers.pipeline(
"text-generation",
model=model_id,
tokenizer=tokenizer,
max_new_tokens=32768,
temperature=0.6,
top_p=0.95,
**model_kwargs
)
thinking = "on"
print(pipeline([{"role": "system", "content": f"detailed thinking {thinking}"},{"role": "user", "content": "Solve x*(sin(x)+2)=0"}]))
推理关闭示例:
import torch
import transformers
model_id = "nvidia/Llama-3_3-Nemotron-Super-49B-v1"
model_kwargs = {"torch_dtype": torch.bfloat16, "trust_remote_code": True, "device_map": "auto"}
tokenizer = transformers.AutoTokenizer.from_pretrained(model_id)
tokenizer.pad_token_id = tokenizer.eos_token_id
pipeline = transformers.pipeline(
"text-generation",
model=model_id,
tokenizer=tokenizer,
max_new_tokens=32768,
do_sample=False,
**model_kwargs
)
# Thinking 可以是 "on" 或 "off"
thinking = "off"
print(pipeline([{"role": "system", "content": f"detailed thinking {thinking}"},{"role": "user", "content": "Solve x*(sin(x)+2)=0"}]))
与 vLLM 一起使用
pip install vllm==0.8.3
使用 vLLM 服务的示例:
python3 -m vllm.entrypoints.openai.api_server \
--model "nvidia/Llama-3_3-Nemotron-Super-49B-v1" \
--trust-remote-code \
--seed=1 \
--host="0.0.0.0" \
--port=5000 \
--served-model-name "nvidia/Llama-3_3-Nemotron-Super-49B-v1" \
--tensor-parallel-size=8 \
--max-model-len=32768 \
--gpu-memory-utilization 0.95 \
--enforce-eager
推理:
引擎:
- Transformers
测试硬件:
- FP8:1x NVIDIA H100-80GB GPU(即将推出!)
- BF16:
- 2x NVIDIA H100-80GB
- 2x NVIDIA A100-80GB GPUs
[首选/支持]操作系统:Linux
训练数据集
在训练后流程之前的知识蒸馏阶段使用了多种训练数据,其中三种包括:FineWeb、Buzz-V1.2 和 Dolma。
用于改进代码、数学和推理能力的多阶段后训练数据是 SFT 和 RL 数据的组合,支持改进原始 Llama 指导模型的数学、代码、通用推理和指令跟随能力。
与此模型发布同时,NVIDIA 还发布了 3000 万个后训练数据样本,作为公开和许可数据。请参阅 Llama-Nemotron-Postraining-Dataset-v1。
各领域分布如下:
类别 | 数量 |
---|---|
数学 | 19,840,970 |
代码 | 9,612,677 |
科学 | 708,920 |
指令跟随 | 56,339 |
聊天 | 39,792 |
安全 | 31,426 |
提示来源于公开和开放的语料库或合成生成。响应由多种模型合成生成,部分提示包含推理开启和关闭两种模式的响应,以训练模型区分两种模式。
训练数据集的数据收集:
- 混合:自动化、人工、合成
训练数据集的数据标注:
- 混合:自动化、人工、合成
评估数据集
我们使用以下数据集评估 Llama-3.3-Nemotron-Super-49B-v1。
评估数据集的数据收集:
- 混合:人工/合成
评估数据集的数据标注:
- 混合:人工/合成/自动
评估结果
这些结果包含“推理开启”和“推理关闭”。我们建议在“推理开启”模式下使用温度=0.6
,Top P=0.95
,在“推理关闭”模式下使用贪婪解码。所有评估均使用 32k 序列长度完成。我们运行基准测试最多 16 次并平均分数以提高准确性。
注意:在适用的情况下,将提供提示模板。完成基准测试时,请确保按照提供的提示解析正确的输出格式,以重现以下基准测试。
Arena-Hard
推理模式 | 分数 |
---|---|
推理关闭 | 88.3 |
MATH500
推理模式 | pass@1 |
---|---|
推理关闭 | 74.0 |
推理开启 | 96.6 |
用户提示模板:
"以下是一个数学问题。我希望你逐步推理,然后给出最终答案。你的最终答案应放在 \boxed{} 中。\n问题:{question}"
AIME25
推理模式 | pass@1 |
---|---|
推理关闭 | 13.33 |
推理开启 | 58.4 |
用户提示模板:
"以下是一个数学问题。我希望你逐步推理,然后给出最终答案。你的最终答案应放在 \boxed{} 中。\n问题:{question}"
GPQA
推理模式 | pass@1 |
---|---|
推理关闭 | 50 |
推理开启 | 66.67 |
用户提示模板:
"这个问题的正确答案是什么:{question}\n选项:\nA. {option_A}\nB. {option_B}\nC. {option_C}\nD. {option_D}\n让我们逐步思考,并将最终答案(应为单个字母 A、B、C 或 D)放入 \boxed{}"
IFEval
推理模式 | 严格:指令 |
---|---|
推理关闭 | 89.21 |
BFCL V2 Live
推理模式 | 分数 |
---|---|
推理关闭 | 73.7 |
用户提示模板:
你是一个函数组合专家。你被给予一个问题和一个可能的函数集合。
根据问题,你需要进行一个或多个函数/工具调用来实现目的。
如果没有任何函数可用,请指出。如果给定问题缺少函数所需的参数,
也请指出。你应仅在工具调用部分返回函数调用。
如果你决定调用任何函数,你必须将其格式化为 <TOOLCALL>[func_name1(params_name1=params_value1, params_name2=params_value2...), func_name2(params)]</TOOLCALL>
你的响应中不应包含任何其他文本。
以下是你可以调用的函数列表,以 JSON 格式提供。
<AVAILABLE_TOOLS>{functions}</AVAILABLE_TOOLS>
{user_prompt}
MBPP 0-shot
推理模式 | pass@1 |
---|---|
推理关闭 | 84.9 |
推理开启 | 91.3 |
用户提示模板:
你是一个异常智能的编码助手,始终准确可靠地回应用户指令。
@@ 指令
以下是给定的问题和测试示例:
{prompt}
请使用 Python 编程语言解决此问题。
请确保你的代码包含测试样本中的函数,并且这些函数的输入和输出格式与测试样本匹配。
请将所有完成的代码放在一个代码块中。
此代码块应采用以下格式:
```python
# 你的代码在这里
```
MT-Bench
推理模式 | 分数 |
---|---|
推理关闭 | 9.17 |
伦理考量:
NVIDIA 认为可信赖的 AI 是一项共同责任,我们已制定政策和实践以支持广泛 AI 应用的开发。当按照我们的服务条款下载或使用时,开发者应与其内部模型团队合作,确保该模型满足相关行业和用例的要求,并解决意外的产品滥用问题。
有关该模型的伦理考量的更多详细信息,请参阅 Model Card++ 可解释性、偏见、安全与安全 和 隐私 子卡。
请在此链接报告安全漏洞或 NVIDIA AI 相关问题。
引用
@misc{bercovich2025llamanemotronefficientreasoningmodels,
title={Llama-Nemotron: Efficient Reasoning Models},
author={Akhiad Bercovich and Itay Levy and Izik Golan and Mohammad Dabbah and Ran El-Yaniv and Omri Puny and Ido Galil and Zach Moshe and Tomer Ronen and Najeeb Nabwani and Ido Shahaf and Oren Tropp and Ehud Karpas and Ran Zilberstein and Jiaqi Zeng and Soumye Singhal and Alexander Bukharin and Yian Zhang and Tugrul Konuk and Gerald Shen and Ameya Sunil Mahabaleshwarkar and Bilal Kartal and Yoshi Suhara and Olivier Delalleau and Zijia Chen and Zhilin Wang and David Mosallanezhad and Adi Renduchintala and Haifeng Qian and Dima Rekesh and Fei Jia and Somshubra Majumdar and Vahid Noroozi and Wasi Uddin Ahmad and Sean Narenthiran and Aleksander Ficek and Mehrzad Samadi and Jocelyn Huang and Siddhartha Jain and Igor Gitman and Ivan Moshkov and Wei Du and Shubham Toshniwal and George Armstrong and Branislav Kisacanin and Matvei Novikov and Daria Gitman and Evelina Bakhturina and Jane Polak Scowcroft and John Kamalu and Dan Su and Kezhi Kong and Markus Kliegl and Rabeeh Karimi and Ying Lin and Sanjeev Satheesh and Jupinder Parmar and Pritam Gundecha and Brandon Norick and Joseph Jennings and Shrimai Prabhumoye and Syeda Nahida Akter and Mostofa Patwary and Abhinav Khattar and Deepak Narayanan and Roger Waleffe and Jimmy Zhang and Bor-Yiing Su and Guyue Huang and Terry Kong and Parth Chadha and Sahil Jain and Christine Harvey and Elad Segal and Jining Huang and Sergey Kashirsky and Robert McQueen and Izzy Putterman and George Lam and Arun Venkatesan and Sherry Wu and Vinh Nguyen and Manoj Kilaru and Andrew Wang and Anna Warno and Abhilash Somasamudramath and Sandip Bhaskar and Maka Dong and Nave Assaf and Shahar Mor and Omer Ullman Argov and Scot Junkin and Oleksandr Romanenko and Pedro Larroy and Monika Katariya and Marco Rovinelli and Viji Balas and Nicholas Edelman and Anahita Bhiwandiwalla and Muthu Subramaniam and Smita Ithape and Karthik Ramamoorthy and Yuting Wu and Suguna Varshini Velury and Omri Almog and Joyjit Daw and Denys Fridman and Erick Galinkin and Michael Evans and Katherine Luna and Leon Derczynski and Nikki Pope and Eileen Long and Seth Schneider and Guillermo Siman and Tomasz Grzegorzek and Pablo Ribalta and Monika Katariya and Joey Conway and Trisha Saar and Ann Guan and Krzysztof Pawelec and Shyamala Prayaga and Oleksii Kuchaiev and Boris Ginsburg and Oluwatobi Olabiyi and Kari Briski and Jonathan Cohen and Bryan Catanzaro and Jonah Alben and Yonatan Geifman and Eric Chung and Chris Alexiuk},
year={2025},
eprint={2505.00949},
archivePrefix={arXiv},
primaryClass={cs.CL},
url={https://arxiv.org/abs/2505.00949},
}


