library_name: transformers
license: other
license_name: nvidia-open-model-license
license_link: >-
https://www.nvidia.com/en-us/agreements/enterprise-software/nvidia-open-model-license/
pipeline_tag: text-generation
language:
- en
tags:
- nvidia
- llama-3
- pytorch
Llama-3.1-Nemotron-Ultra-253B-CPT-v1
模型概述

Llama-3.1-Nemotron-Ultra-253B-CPT-v1是一个大型语言模型(LLM),它是Meta Llama-3.1-405B-Instruct(即父模型)的衍生版本。该模型支持128K tokens的上下文长度,并可在单个8xH100节点上进行推理。虽然该模型源自Llama-3.1-405B-Instruct,但它经过了大量的持续预训练(CPT)。这一CPT变体可视为Llama-3.1-405B-Instruct的“重新基准化”衍生版本。
Llama-3.1-Nemotron-Ultra-253B-v1是一个在模型准确性和效率之间取得良好平衡的模型。效率(吞吐量)直接转化为成本节省。通过一种新颖的神经架构搜索(NAS)方法,我们大幅降低了模型的内存占用,从而能够处理更大的工作负载,并减少了在数据中心环境中运行模型所需的GPU数量。这种NAS方法使得我们能够在准确性与效率的权衡中选择理想的平衡点。此外,通过使用一种新颖的垂直压缩模型方法(详见此处),该模型在延迟方面也有显著改善。
该模型是创建Llama-3.1-Nemotron-Ultra-253B-v1的基础模型,后者是Llama Nemotron系列的一部分。您可以在此找到该系列的其他模型:
该模型已准备好用于商业用途。
许可证/使用条款
管理条款:您对该模型的使用受NVIDIA开放模型许可证约束。附加信息:Llama 3.1社区许可证协议。基于Llama构建。
模型开发者:NVIDIA
模型训练时间:2024年11月至2025年4月
数据新鲜度:预训练数据的截止时间为2023年,与Llama-3.1-405B-Instruct一致。
使用场景:
该模型可作为基础模型,通过微调适应任何所需领域或应用。
发布日期:
2025-04-08
参考文献
模型架构
架构类型:密集解码器专用Transformer模型
网络架构:Llama-3.1-405B-Instruct,通过神经架构搜索(NAS)定制
该模型基于Llama-3.1-405B-Instruct开发
该模型拥有2530亿参数
该模型是Llama 3.1-405B-Instruct的衍生版本,使用了神经架构搜索(NAS)。NAS算法产生了非标准且非重复的模块。这包括以下内容:
- 跳过注意力:在某些模块中,注意力机制被完全跳过,或被替换为单个线性层。
- 可变FFN:FFN层中的扩展/压缩比例在不同模块间有所不同。
- FFN融合:当连续多个注意力层被跳过时,可能导致多个FFN层连续出现,这些FFN层序列会被融合为数量更少但宽度更大的FFN层。
对于父模型的每个模块,我们创建了多个变体,提供了质量与计算复杂度之间的不同权衡方案,更深入的讨论见此处。然后,我们搜索这些模块以创建一个满足所需吞吐量和内存约束的模型,同时最小化质量下降。为了恢复性能,该模型最初进行了650亿tokens的知识蒸馏(KD),随后进行了880亿tokens的持续预训练(CPT)阶段。虽然初始模型是从Llama 3.1-405B-Instruct版本中注入的,但其所经历的大量CPT可视为对模型的“重新基准化”。尽管如此,重新基准化的CPT最终模型仍应保留其部分指令跟随能力。
预期用途
Llama-3.1-Nemotron-Ultra-253B-CPT-v1可作为基础模型,主要用于英语和编程语言。
输入
- 输入类型:文本
- 输入格式:字符串
- 输入参数:一维(1D)
- 其他输入相关属性:上下文长度可达131,072 tokens
输出
- 输出类型:文本
- 输出格式:字符串
- 输出参数:一维(1D)
- 其他输出相关属性:上下文长度可达131,072 tokens
软件集成
- 运行时引擎:Transformers
- 推荐的硬件微架构兼容性:
- NVIDIA Hopper
- NVIDIA Ampere
- 首选操作系统:Linux
模型版本
1.0(2025年4月8日)
快速开始及使用建议:
(即将推出)您可以通过此链接在预览API中尝试基于此CPT模型构建的推理模型:Llama-3_1-Nemotron-Ultra-253B-v1。
以下代码片段展示了如何与Hugging Face Transformers库一起使用。
我们推荐使用transformers包的4.48.3版本。
import torch
import transformers
model_id = "nvidia/Llama-3_1-Nemotron-Ultra-253B-CPT-v1"
model_kwargs = {"torch_dtype": torch.bfloat16, "trust_remote_code": True, "device_map": "auto"}
tokenizer = transformers.AutoTokenizer.from_pretrained(model_id)
tokenizer.pad_token_id = tokenizer.eos_token_id
pipeline = transformers.pipeline(
"text-generation",
model=model_id,
tokenizer=tokenizer,
max_new_tokens=32768,
do_sample=False,
**model_kwargs
)
print(pipeline("Hey how are you?"))
print(pipeline([{"role": "user", "content": "Hey how are you?"}]))
推理:
引擎:
测试硬件:
- BF16:
- 8x NVIDIA H100-80GB
- 4x NVIDIA B100
- FP8
训练数据集
在训练后流程之前的知识蒸馏阶段使用了多种训练数据,其中三种包括:FineWeb、Buzz-V1.2和Dolma。
训练数据集的数据收集:
训练数据集的数据标注:
评估数据集
我们使用下一节中列出的数据集来评估Llama-3.1-Nemotron-Ultra-253B-CPT-v1。
评估数据集的数据收集:
评估数据集的数据标注:
评估结果
基准测试 |
指标 |
得分 |
GSM-8K |
严格匹配 |
84.99 |
MMLU |
宏观平均 |
88.09 |
MATH500 |
微观平均 |
80.4 |
HumanEval |
pass@1 |
88.41 |
RULER |
128K |
83.21 |
伦理考量:
NVIDIA认为可信赖的AI是一项共同责任,我们已建立政策和实践以支持广泛AI应用的开发。当按照我们的服务条款下载或使用时,开发者应与其内部模型团队合作,确保该模型满足相关行业和使用场景的要求,并解决意外的产品滥用问题。
有关该模型伦理考量的更多详细信息,请参阅模型卡片++ 可解释性、偏见、安全与安全和隐私子卡片。
请在此链接报告安全漏洞或NVIDIA AI相关问题。