库名称:transformers
许可证:其他
许可证名称:英伟达内部科学研究与开发模型许可
许可证链接:https://www.nvidia.com/en-us/agreements/enterprise-software/nvidia-internal-scientific-research-and-development-model-license/
任务标签:文本生成
支持语言:
- 英语
- 德语
- 西班牙语
- 法语
- 意大利语
- 韩语
- 葡萄牙语
- 俄语
- 日语
- 中文
标签:
- 英伟达
- PyTorch
- Nemotron-H
Nemotron-H-56B-Base-8K
模型概述
NVIDIA Nemotron-H-56B-Base-8K是由英伟达开发的大型语言模型(LLM),设计用于给定文本的补全任务。该模型采用混合架构,主要由Mamba-2和MLP层组成,仅包含十个注意力层。模型支持8K的上下文长度,涵盖英语、德语、西班牙语、法语、意大利语、韩语、葡萄牙语、俄语、日语和中文等多种语言。关于模型架构、训练和评估的更多详细信息,请参阅项目页面和技术报告。
为在特定任务上获得最佳性能,建议用户使用NeMo框架提供的定制工具,包括参数高效微调(P-tuning、适配器、LoRA等)和模型对齐(SFT、SteerLM、RLHF等),通过NeMo-Aligner实现。
本模型仅供研究和开发使用。
该模型属于Nemotron-H系列,该系列的其他模型包括:
许可证/使用条款
使用本模型需遵守英伟达内部科学研究与开发模型许可的规定。
模型开发者: 英伟达
模型开发时间:
2024年10月至2025年3月
数据新鲜度:
2024年9月
预训练数据的截止日期为2024年9月。
使用场景:
本模型面向构建大型语言模型的开发者和研究人员。
发布日期:
2025年4月14日
参考文献
模型架构
- 架构类型:混合Mamba-Transformer
- 网络架构:Nemotron-H
本模型拥有560亿参数。
输入
- 输入类型:文本
- 输入格式:字符串
- 输入参数:一维(1D)序列
- 其他输入相关属性:支持最长8K上下文,涵盖德语、西班牙语、法语、意大利语、韩语、葡萄牙语、俄语、日语、中文和英语。
输出
- 输出类型:文本
- 输出格式:字符串
- 输出参数:一维(1D)序列
我们的AI模型专为或优化于英伟达GPU加速系统运行。通过利用英伟达的硬件(如GPU核心)和软件框架(如CUDA库),相比仅使用CPU的解决方案,模型能实现更快的训练和推理速度。
软件集成
- 运行时引擎:NeMo 24.12
- 支持的硬件微架构兼容性:NVIDIA H100-80GB、NVIDIA A100
- 操作系统:Linux
模型版本
提示格式
作为基础模型,不推荐或要求特定的提示格式。
示例
import torch
from transformers import AutoTokenizer, AutoModelForCausalLM
tokenizer = AutoTokenizer.from_pretrained("nvidia/Nemotron-H-56B-Base-8K", trust_remote_code=True)
model = AutoModelForCausalLM.from_pretrained("nvidia/Nemotron-H-56B-Base-8K", torch_dtype=torch.bfloat16, trust_remote_code=True, device_map="auto")
prompt = "英伟达成立于何时?"
outputs = model.generate(**tokenizer(prompt, return_tensors="pt", add_special_tokens=False).to(model.device))
print(tokenizer.decode(outputs[0]))
训练、测试与评估数据集
训练与测试数据集:
Nemotron-H-56B-Base-8K基础模型的训练语料包括英语和多语言文本(德语、西班牙语、法语、意大利语、韩语、葡萄牙语、俄语、日语、中文和英语)以及代码。数据来源涵盖多种文档类型,如网页、对话、文章和其他书面材料。该模型还使用了来自Qwen(基于Qwen构建)的合成数据进行改进。语料覆盖法律、数学、科学、金融等多个领域,并包含少量问答和对齐风格数据以提高模型准确性。
训练与测试数据集的数据收集方式:
混合:自动化、人工、合成
训练与测试数据集的数据标注方式:
混合:自动化、人工、合成
评估数据集
我们使用以下列出的数据集评估Nemotron-H-56B-Base-8K基础模型。
评估数据集的数据收集方式:
混合:人工、合成
评估数据集的数据标注方式:
混合:人工、合成、自动化
常识理解评估:
ARC挑战赛25-shot |
Hellaswag 10-shot |
Winogrande 5-shot |
CommonsenseQA 7-shot |
94.97 |
89.00 |
84.45 |
86.73 |
- ARC(Ai2推理挑战赛)- 包含小学水平的多选科学问题,用于评估语言模型的问答能力。数据集
- Hellaswag - 测试语言模型从多个选项中正确完成给定上下文的能力。数据集
- Winogrande - 测试在需要常识推理的句子中选择正确选项的能力。数据集
- CommonsenseQA - 一个多选问答数据集,需要不同类型的常识知识来预测正确答案。数据集
编码评估:
MBPP(净化版)3-shot |
MBPP+ 0-shot |
HumanEval 0-shot |
HumanEval+ 0-shot |
77.82 |
67.20 |
60.37 |
54.27 |
- MBPP(基本Python编程问题) - 评估生成Python编程任务解决方案的能力。数据集
- MBPP+ - MBPP的扩展版本,包含额外验证。数据集
- HumanEval - 测试Python代码生成和补全能力。数据集
数学评估:
GSM8K 8-shot CoT |
MATH 4-shot CoT |
MATH-Lvl 5 4-shot CoT |
MATH-500 4-shot CoT |
93.71 |
59.42 |
35.19 |
57.37 |
- GSM8K(小学8K数学题) - 评估小学水平的数学应用题解决能力。数据集
- MATH - 测试跨多个难度级别和各种数学主题的能力,包括:预代数、代数、数论、计数与概率、几何、中级代数和预微积分。数据集
- MATH Lvl 5 - 仅包含MATH数据集中最困难的问题。数据集
- MATH-500 - 测试跨代数、几何和微积分的高级数学问题解决能力。数据集
通用评估:
MMLU-Pro 5-shot CoT |
MMLU 5-shot |
60.51 |
84.21 |
- MMLU Pro - 评估语言理解模型在14个不同领域的具有挑战性、以推理为重点的问题上的表现。
数据集
- MMLU - 测试包括科学、人文、数学等57个学科的知识。数据集
潜在使用风险
模型训练数据包含从互联网爬取的含有毒性语言、不安全内容和社会偏见的内容。因此,模型可能放大这些偏见,并在接收到毒性提示时返回毒性响应。即使提示本身不包含明显冒犯性内容,模型也可能生成不准确、遗漏关键信息或包含无关或冗余文本的答案,产生社会不可接受或不良的文本。
模型在间接提示注入方面表现出弱点,特别是通过Base16、Hex/ASCII和盲文等编码方式,尽管相比其他类似模型,对更常见的Base64向量注入更具抵抗力。
推理
- 引擎:NeMo
- 测试硬件:NVIDIA H100-80GB
伦理考量
英伟达认为可信AI是共同责任,并已建立政策和实践以支持广泛AI应用的开发。在下载或使用本模型时,开发者应与其内部模型团队合作,确保该模型满足相关行业和使用场景的要求,并解决意外的产品滥用问题。
有关本模型的详细伦理考量,请参阅《负责任使用指南》,网址为http://nvidia.com/nemotron-responsible-use。
请在此处报告安全漏洞或英伟达AI相关问题此处。