library_name: transformers
license: other
license_name: nvidia-internal-scientific-research-and-development-model-license
license_link: >-
https://www.nvidia.com/en-us/agreements/enterprise-software/nvidia-internal-scientific-research-and-development-model-license/
pipeline_tag: text-generation
language:
- en
- de
- es
- fr
- it
- ko
- pt
- ru
- jp
- zh
tags:
- nvidia
- pytorch
- nemotron-h
Nemotron-H-8B-Base-8K
模型概述
NVIDIA Nemotron-H-8B-Base-8K 是由 NVIDIA 开发的大型语言模型(LLM),旨在为给定文本片段生成补全内容。该模型采用混合架构,主要由 Mamba-2 和 MLP 层组成,并结合了仅四个注意力层。模型支持 8K 的上下文长度,涵盖英语、德语、西班牙语、法语、意大利语、韩语、葡萄牙语、俄语、日语和中文等多种语言。有关模型架构、训练和评估的更多详细信息,请参阅项目页面和技术报告。
为了在特定任务上获得最佳性能,建议用户使用 NeMo Framework 提供的定制工具对模型进行微调,包括参数高效微调(P-tuning、适配器、LoRA 等)和模型对齐(SFT、SteerLM、RLHF 等),可通过 NeMo-Aligner 实现。
本模型仅供研究和开发使用。
该模型属于 Nemotron-H 系列,该系列的其他模型如下:
许可证/使用条款
使用条款: 本模型的使用受 NVIDIA 内部科学研究与开发模型许可证 约束。
模型开发者: NVIDIA
模型开发时间:
2024 年 10 月 - 2025 年 3 月
数据新鲜度:
2024 年 9 月
预训练数据的截止日期为 2024 年 9 月。
使用场景
本模型面向开发者和研究人员,用于构建大型语言模型(LLM)。
发布日期
2025 年 4 月 14 日
参考文献
模型架构
- 架构类型:混合 Mamba-Transformer
- 网络架构:Nemotron-H
本模型参数量为 80 亿。
输入
- 输入类型:文本
- 输入格式:字符串
- 输入参数:一维(1D)序列
- 其他输入相关属性:上下文长度最高 8K,支持德语、西班牙语、法语、意大利语、韩语、葡萄牙语、俄语、日语、中文和英语。
输出
- 输出类型:文本
- 输出格式:字符串
- 输出参数:一维(1D)序列
我们的 AI 模型专为或优化于 NVIDIA GPU 加速系统运行。通过利用 NVIDIA 的硬件(如 GPU 核心)和软件框架(如 CUDA 库),与仅使用 CPU 的解决方案相比,模型实现了更快的训练和推理速度。
软件集成
- 运行时引擎:NeMo 24.12
- 支持的硬件微架构兼容性:NVIDIA H100-80GB、NVIDIA A100
- 操作系统:Linux
模型版本
提示格式
由于这是一个基础模型,无需特定的提示格式。
示例
import torch
from transformers import AutoTokenizer, AutoModelForCausalLM
tokenizer = AutoTokenizer.from_pretrained("nvidia/Nemotron-H-8B-Base-8K", trust_remote_code=True)
model = AutoModelForCausalLM.from_pretrained("nvidia/Nemotron-H-8B-Base-8K", torch_dtype=torch.bfloat16, trust_remote_code=True).cuda()
prompt = "NVIDIA 成立于哪一年?"
outputs = model.generate(**tokenizer(prompt, return_tensors="pt", add_special_tokens=False).to(model.device))
print(tokenizer.decode(outputs[0]))
训练、测试与评估数据集
训练与测试数据集
Nemotron-H-8B-Base-8K 的训练语料包括英语和多语言文本(德语、西班牙语、法语、意大利语、韩语、葡萄牙语、俄语、日语、中文和英语)以及代码。数据来源涵盖多种文档类型,如网页、对话、文章和其他书面材料。该模型还通过 Qwen(基于 Qwen 构建)的合成数据进行了优化。语料覆盖法律、数学、科学、金融等多个领域,并包含少量问答和对齐风格数据以提高模型准确性。
训练与测试数据集的数据收集方式:
混合:自动化、人工、合成
训练与测试数据集的数据标注方式:
混合:自动化、人工、合成
评估数据集
我们使用以下列出的数据集对 Nemotron-H-8B-Base-8K 进行评估。
评估数据集的数据收集方式:
混合:人工、合成
评估数据集的数据标注方式:
混合:人工、合成、自动化
常识理解评估
ARC Challenge 25-shot |
Hellaswag 10-shot |
Winogrande 5-shot |
CommonsenseQA 7-shot |
88.74 |
83.23 |
80.51 |
78.71 |
- ARC(Ai2 推理挑战)-Challenge:包含小学水平的多选科学问题,用于评估语言模型的问答能力。数据集
- Hellaswag:测试语言模型从多个选项中选择正确上下文补全的能力。数据集
- Winogrande:测试在需要常识推理的句子中选择正确选项的能力。数据集
- CommonsenseQA:一个多选问答数据集,需要不同类型的常识知识来预测正确答案。数据集
代码评估
MBPP(净化版)3-shot |
MBPP+ 0-shot |
HumanEval 0-shot |
HumanEval+ 0-shot |
65.37 |
59.52 |
58.54 |
55.49 |
- MBPP(基本 Python 编程问题):评估生成 Python 编程任务解决方案的能力。数据集
- MBPP+:MBPP 的扩展版本,包含额外验证。数据集
- HumanEval:测试 Python 代码生成和补全能力。数据集
数学评估
GSM8K 8-shot CoT |
MATH 4-shot CoT |
MATH-Lvl 5 4-shot CoT |
MATH-500 4-shot CoT |
87.11 |
46.52 |
22.93 |
44.43 |
- GSM8K(小学 8K 数学):评估小学水平的数学应用题解决能力。数据集
- MATH:测试跨多个难度级别和主题的数学能力,包括预代数、代数、数论、计数与概率、几何、中级代数和微积分预备。数据集
- MATH Lvl 5:仅包含 MATH 数据集中最困难的问题。数据集
- MATH-500:测试代数、几何和微积分的高级数学问题解决能力。数据集
通用评估
MMLU-Pro 5-shot CoT |
MMLU 5-shot |
44.01 |
72.77 |
- MMLU Pro:评估语言模型在 14 个不同领域的具有挑战性的推理问题上的表现。数据集
- MMLU:测试包括科学、人文、数学等 57 个学科的知识。数据集
潜在使用风险
该模型在包含从互联网爬取的毒性语言和社会偏见的数据上进行训练,因此可能会放大这些偏见并在受到毒性提示时返回毒性响应。即使提示本身不包含明显冒犯性内容,模型也可能生成不准确、遗漏关键信息或包含无关或冗余文本的答案,产生社会不可接受或不良的文本。
该模型在间接提示注入(如 Base16、Hex/ASCII 和盲文编码)方面表现较弱,但对更常见的 Base64 向量注入的抵抗力优于其他类似模型。
推理
- 引擎:NeMo
- 测试硬件:NVIDIA H100-80GB
伦理考量
NVIDIA 认为可信 AI 是共同责任,并已制定政策和实践以支持广泛 AI 应用的开发。在下载或使用本模型时,开发者应与其内部模型团队合作,确保该模型满足相关行业和使用场景的要求,并解决潜在的产品误用问题。
有关本模型的伦理考量更多详细信息,请参阅 NVIDIA 负责任使用指南。
请通过此链接报告安全漏洞或 NVIDIA AI 相关问题。