库名称:transformers
许可证:其他
许可证名称:NVIDIA内部科学研究与开发模型许可证
许可证链接:https://www.nvidia.com/en-us/agreements/enterprise-software/nvidia-internal-scientific-research-and-development-model-license/
任务标签:文本生成
支持语言:
- 英语
- 德语
- 西班牙语
- 法语
- 意大利语
- 韩语
- 葡萄牙语
- 俄语
- 日语
- 中文
标签:
- NVIDIA
- PyTorch
- Nemotron-H
基础模型:
- nvidia/Nemotron-H-56B-Base-8K
Nemotron-H-47B-Base-8K
模型概述
NVIDIA Nemotron-H-47B-Base-8K 是由 NVIDIA 开发的大型语言模型(LLM),设计用于对给定文本进行补全。该模型采用混合架构,主要由 Mamba-2 和 MLP 层组成,并仅包含五个注意力层。该模型通过 630 亿 token 从 Nemotron-H-56B-Base-8K 剪枝和蒸馏而来,支持 8K 上下文长度。支持的语言包括:英语、德语、西班牙语、法语、意大利语、韩语、葡萄牙语、俄语、日语和中文。有关模型架构、训练和评估的更多详细信息,请参阅 项目页面 和 技术报告。
为在特定任务上获得最佳性能,建议用户使用 NeMo Framework 提供的定制工具对模型进行微调,包括参数高效微调(P-tuning、适配器、LoRA 等)和模型对齐(SFT、SteerLM、RLHF 等),可通过 NeMo-Aligner 实现。
此模型仅供研究和开发使用。
该模型属于 Nemotron-H 系列。该系列的其他模型包括:
许可证/使用条款
使用本模型需遵守 NVIDIA 内部科学研究与开发模型许可证。
模型开发者: NVIDIA
模型日期:
2024 年 10 月至 2025 年 3 月
数据新鲜度:
2024 年 9 月
预训练数据的截止日期为 2024 年 9 月。
使用场景
本模型面向开发者和研究人员,用于构建大型语言模型。
发布日期:
2025 年 4 月 12 日
参考文献
模型架构
- 架构类型:混合 Mamba-Transformer
- 网络架构:Nemotron-H
该模型拥有 470 亿参数。
输入
- 输入类型:文本
- 输入格式:字符串
- 输入参数:一维(1D)序列
- 其他输入相关属性:上下文长度最高 8K。支持的语言包括德语、西班牙语、法语、意大利语、韩语、葡萄牙语、俄语、日语、中文和英语。
输出
- 输出类型:文本
- 输出格式:字符串
- 输出参数:一维(1D)序列
我们的 AI 模型专为或优化于 NVIDIA GPU 加速系统运行。通过利用 NVIDIA 的硬件(如 GPU 核心)和软件框架(如 CUDA 库),相比仅使用 CPU 的解决方案,该模型能实现更快的训练和推理速度。
软件集成
- 运行时引擎:NeMo 24.12
- 支持的硬件微架构兼容性:NVIDIA H100-80GB、NVIDIA A100
- 操作系统:Linux
模型版本
提示格式
由于这是一个基础模型,无需特定的提示格式。
示例
import torch
from transformers import AutoTokenizer, AutoModelForCausalLM
tokenizer = AutoTokenizer.from_pretrained("nvidia/Nemotron-H-47B-Base-8K", trust_remote_code=True)
model = AutoModelForCausalLM.from_pretrained("nvidia/Nemotron-H-47B-Base-8K", torch_dtype=torch.bfloat16, trust_remote_code=True, device_map="auto")
prompt = "NVIDIA 成立于哪一年?"
outputs = model.generate(**tokenizer(prompt, return_tensors="pt", add_special_tokens=False).to(model.device))
print(tokenizer.decode(outputs[0]))
训练、测试和评估数据集
训练与测试数据集:
Nemotron-H-47B-Base-8K 的训练语料包括英语和多语言文本(德语、西班牙语、法语、意大利语、韩语、葡萄牙语、俄语、日语、中文和英语)以及代码。数据来源涵盖多种文档类型,如网页、对话、文章和其他书面材料。该模型还通过 Qwen(基于 Qwen 构建)的合成数据进行了优化。语料涵盖的领域包括法律、数学、科学、金融等。我们还包含少量问答和对齐风格数据以提高模型准确性。
训练与测试数据集的数据收集方式:
混合:自动化、人工、合成
训练与测试数据集的数据标注方式:
混合:自动化、人工、合成
评估数据集
我们使用以下部分列出的数据集对模型进行评估。
训练数据集的数据收集方式:
混合:自动化、人工、合成
训练数据集的数据标注方式:
混合:自动化、人工、合成
常识理解评估:
ARC Challenge 25-shot |
Hellaswag 10-shot |
Winogrande 5-shot |
CommonsenseQA 7-shot |
94.6 |
87.9 |
83.9 |
87.3 |
- ARC(Ai2 推理挑战)-Challenge:包含小学水平的多选科学问题,用于评估语言模型的问答能力。数据集
- Hellaswag:测试语言模型从多个选项中正确完成给定上下文的能力。数据集
- Winogrande:测试在需要常识推理的句子中选择正确选项的能力。数据集
- CommonsenseQA:一个多选问答数据集,需要不同类型的常识知识来预测正确答案。数据集
代码评估:
MBPP(净化版)3-shot |
MBPP+ 0-shot |
HumanEval 0-shot |
HumanEval+ 0-shot |
75.9 |
65.6 |
61.0 |
56.1 |
- MBPP(基本 Python 编程问题):评估生成 Python 编程任务解决方案的能力。数据集
- MBPP+:MBPP 的扩展版本,包含额外验证。数据集
- HumanEval:测试 Python 代码生成和补全能力。数据集
数学评估:
GSM8K 8-shot CoT |
MATH 4-shot CoT |
MATH-Lvl 5 4-shot CoT |
MATH-500 4-shot CoT |
93.3 |
57.4 |
34.2 |
57.9 |
- GSM8K(小学 8K 数学):评估小学水平的数学应用题解决能力。数据集
- MATH-500:测试代数、几何和微积分等高级数学问题解决能力。数据集
- MATH Lvl 5:仅包含 MATH 数据集中最困难的问题。数据集
- MATH-500:测试代数、几何和微积分等高级数学问题解决能力。数据集
通用评估:
MMLU-Pro 5-shot-cot |
MMLU 5-shot |
61.8 |
83.6 |
- MMLU:测试涵盖 57 个学科的知识,包括科学、人文、数学等。数据集
- MMLU Pro:评估语言模型在 14 个不同领域中具有挑战性的推理问题的理解能力。数据集
潜在使用风险
该模型在训练时使用了从互联网爬取的包含有毒语言、不安全内容和社会偏见的数据。因此,模型可能会放大这些偏见,并在接收到有毒提示时返回有毒响应。模型生成的答案可能不准确、遗漏关键信息或包含无关或冗余文本,产生社会不可接受或不良的文本,即使提示本身不包含任何明显冒犯性内容。
该模型对某些编码方式的间接提示注入表现出弱点,包括 Base16、Hex/ASCII 和盲文,尽管相比其他类似模型,它对更常见的 Base64 向量注入更具抵抗力。
推理
- 引擎:NeMo
- 测试硬件:NVIDIA H100-80GB
伦理考量
NVIDIA 认为可信 AI 是共同责任,我们已制定政策和实践以支持广泛 AI 应用的开发。在下载或使用本模型时,开发者应与其内部模型团队合作,确保该模型符合相关行业和使用场景的要求,并解决潜在的产品滥用问题。
有关本模型的伦理考量更多详细信息,请参阅《负责任使用指南》:http://nvidia.com/nemotron-responsible-use。
请在此处报告安全漏洞或 NVIDIA AI 相关问题:链接。