库名称: transformers
许可证: other
许可证名称: NVIDIA开放模型许可证
许可证链接: https://www.nvidia.com/en-us/agreements/enterprise-software/nvidia-open-model-license/
管道标签: 文本生成
语言:
- en
标签:
- nvidia
- llama-3
- pytorch
Llama-3.3-Nemotron-Super-49B-v1-FP8

模型概述
Llama-3.3-Nemotron-Super-49B-v1-FP8 是一个大型语言模型(LLM),是 Meta Llama-3.3-70B-Instruct(又称参考模型)的衍生版本。这是一个推理模型,经过后训练以增强推理能力、人类对话偏好以及任务执行能力,如 RAG 和工具调用。该模型支持 128K 令牌的上下文长度。
Llama-3.3-Nemotron-Super-49B-v1-FP8 是一个在模型精度和效率之间实现出色平衡的模型。效率(吞吐量)直接转化为成本节省。通过一种新颖的神经架构搜索(NAS)方法,我们大幅减少了模型的内存占用,使其能够处理更大的工作负载,同时在高负载(如 H200)下适配单 GPU。这种 NAS 方法允许在精度和效率之间选择理想的平衡点。有关 NAS 方法的更多信息,请参阅这篇论文。
该模型经过多阶段的后训练过程,以增强其推理和非推理能力。这包括针对数学、代码、推理和工具调用的监督微调阶段,以及使用 REINFORCE(RLOO)和在线奖励感知偏好优化(RPO)算法进行对话和指令跟随的多个强化学习(RL)阶段。最终模型检查点是通过合并最终的 SFT 和在线 RPO 检查点获得的。有关模型训练的更多细节,请参阅这篇博客。
该模型是 Llama Nemotron 系列的一部分。您可以在此系列中找到其他模型:
该模型已准备好用于商业用途。
许可证/使用条款
管辖条款:您对该模型的使用受NVIDIA 开放模型许可证约束。附加信息:Llama 3.3 社区许可证协议。基于 Llama 构建。
模型开发者:NVIDIA
模型日期:2024 年 11 月至 2025 年 2 月间训练
数据新鲜度:预训练数据的截止时间为 2023 年(基于 Meta Llama 3.3 70B)。
使用场景:
适用于设计 AI 代理系统、聊天机器人、RAG 系统和其他 AI 驱动应用的开发者。也适用于典型的指令跟随任务。
发布日期:
2025 年 3 月 18 日
参考文献
模型架构
架构类型:密集解码器专用 Transformer 模型
网络架构:Llama 3.3 70B Instruct,通过神经架构搜索(NAS)定制
该模型是 Meta Llama-3.3-70B-Instruct 的衍生版本,使用神经架构搜索(NAS)。NAS 算法产生了非标准和非重复的块。这包括以下内容:
- 跳过注意力:在某些块中,注意力被完全跳过,或被替换为单个线性层。
- 可变 FFN:FFN 层中的扩展/压缩比率在不同块之间有所不同。
我们采用了参考模型的块级蒸馏方法,为每个块创建多个变体,提供质量与计算复杂度之间的不同权衡(下文将详细讨论)。然后,我们搜索这些块以创建一个满足所需吞吐量和内存(针对单个 H100-80GB GPU 优化)的模型,同时最小化质量下降。随后,模型进行了知识蒸馏(KD),重点关注英语单轮和多轮对话用例。KD 步骤包括 40B 令牌的数据集混合,包括 FineWeb、Buzz-V1.2 和 Dolma。
预期用途
Llama-3.3-Nemotron-Super-49B-v1-FP8 是一个通用推理和对话模型,适用于英语和编程语言。其他非英语语言(德语、法语、意大利语、葡萄牙语、印地语、西班牙语和泰语)也受支持。
输入
- 输入类型:文本
- 输入格式:字符串
- 输入参数:一维(1D)
- 其他输入相关属性:上下文长度最高 131,072 令牌
输出
- 输出类型:文本
- 输出格式:字符串
- 输出参数:一维(1D)
- 其他输出相关属性:上下文长度最高 131,072 令牌
模型版本
1.0(2025 年 3 月 18 日)
软件集成
- 运行时引擎:Transformers
- 首选操作系统:Linux
- 推荐硬件微架构兼容性:
- NVIDIA Hopper
- NVIDIA Ampere
快速入门和使用建议:
- 推理模式(开启/关闭)通过系统提示控制,必须按以下示例设置。所有指令应包含在用户提示中。
- 对于推理开启模式,建议将温度设置为
0.6
,Top P 设置为 0.95
。
- 对于推理关闭模式,建议使用贪婪解码。
- 我们为每个需要特定模板的基准测试提供了提示列表。
您可以通过预览 API 试用此模型,使用此链接:Llama-3_3-Nemotron-Super-49B-v1。
与 vLLM 一起使用
pip install vllm==0.8.3
使用 vLLM 进行服务的示例:
--model "nvidia/Llama-3_3-Nemotron-Super-49B-v1-FP8" \
--trust-remote-code \
--seed=1 \
--host="0.0.0.0" \
--port=5000 \
--served-model-name "nvidia/Llama-3_3-Nemotron-Super-49B-v1-FP8" \
--tensor-parallel-size=8 \
--max-model-len=32768 \
--gpu-memory-utilization 0.95 \
--enforce-eager
--quantization=modelopt
推理:
引擎:
测试硬件:
- FP8:1x NVIDIA H100-80GB GPU
- BF16:
- 2x NVIDIA H100-80GB
- 2x NVIDIA A100-80GB GPU
训练数据集
在知识蒸馏阶段和后训练流程之前,使用了多种训练数据,其中包括 FineWeb、Buzz-V1.2 和 Dolma。
用于代码、数学和推理能力提升的多阶段后训练数据是 SFT 和 RL 数据的组合,支持原始 Llama 指令模型在数学、代码、通用推理和指令跟随能力上的改进。
与此模型发布同时,NVIDIA 还发布了 30M 个后训练数据样本,作为公开和许可数据。Llama-Nemotron-Postraining Dataset
提示来源于公开开放语料库或合成生成。响应由多种模型合成生成,部分提示包含推理开启和关闭模式的响应,以训练模型区分两种模式。
训练数据集的数据收集:
混合:自动化、人工、合成
训练数据集的数据标注:
混合:自动化、人工、合成
评估数据集
我们使用以下数据集评估 Llama-3.3-Nemotron-Super-49B-v1-FP8。
评估数据集的数据收集:
混合:人工/合成
评估数据集的数据标注:
混合:人工/合成/自动化
评估结果
这些结果包含推理开启和推理关闭模式。我们建议在推理开启模式下使用温度=0.6
,top_p=0.95
,在推理关闭模式下使用贪婪解码。所有评估均在 32k 序列长度下完成。我们运行基准测试最多 16 次并取平均分数以提高准确性。
注意:在适用的情况下,将提供提示模板。完成基准测试时,请确保按照提供的提示解析正确的输出格式,以重现以下基准测试结果。
Arena Hard
BFCL v2
推理模式 |
pass@1 |
推理关闭 |
72.10 |
推理开启 |
71.70 |
MATH500
用户提示模板:
"以下是一个数学问题。我希望你逐步推理,然后给出最终答案。你的最终答案应放在 \boxed{} 中。\n问题:{question}"
AIME25
用户提示模板:
"以下是一个数学问题。我希望你逐步推理,然后给出最终答案。你的最终答案应放在 \boxed{} 中。\n问题:{question}"
GPQA
用户提示模板:
"以下问题的正确答案是什么:{question}\n选项:\nA. {option_A}\nB. {option_B}\nC. {option_C}\nD. {option_D}\n让我们逐步思考,并将最终答案(应为单个字母 A、B、C 或 D)放入 \boxed{}"
IFEval
LiveCodeBench
用户提示模板(无起始代码):
"你将收到一个问题(问题描述),并生成一个符合描述并通过所有测试的正确 Python 程序。
问题:{prompt}
从 stdin 读取输入,解决问题并将答案写入 stdout(不要直接在示例输入上测试)。将你的代码包含在以下分隔符内。确保 Python 程序运行时读取输入、运行算法并将输出写入 STDOUT。
```python
# 你的代码在这里
```
用户提示模板(带起始代码):
你将收到一个问题(问题描述),并生成一个符合描述并通过所有测试的正确 Python 程序。
问题:{prompt}
你将使用以下起始代码编写问题的解决方案,并将你的代码包含在分隔符内。
```python
{starter_code}
```
伦理考量:
NVIDIA 认为可信 AI 是一项共同责任,我们已制定政策和实践以支持广泛 AI 应用的开发。当按照我们的服务条款下载或使用时,开发者应与其内部模型团队合作,确保该模型满足相关行业和用例的要求,并解决意外的产品滥用问题。
有关该模型的伦理考量的更多详细信息,请参阅模型卡片++ 可解释性、偏见、安全与保障 和 隐私 子卡片。
请在此处报告安全漏洞或 NVIDIA AI 相关问题此处。
引用
@misc{bercovich2025llamanemotronefficientreasoningmodels,
title={Llama-Nemotron: 高效推理模型},
author={Akhiad Bercovich and Itay Levy and Izik Golan and Mohammad Dabbah and Ran El-Yaniv and Omri Puny and Ido Galil and Zach Mos