🚀 Nemotron-H-8B-Base-8K
NVIDIA的Nemotron-H-8B-Base-8K是一款大型语言模型,专为文本补全任务设计。它采用了混合模型架构,结合了Mamba-2和MLP层以及少量注意力层,支持多种语言,上下文长度可达8K。
🚀 快速开始
示例代码
import torch
from transformers import AutoTokenizer, AutoModelForCausalLM
tokenizer = AutoTokenizer.from_pretrained("nvidia/Nemotron-H-8B-Base-8K", trust_remote_code=True)
model = AutoModelForCausalLM.from_pretrained("nvidia/Nemotron-H-8B-Base-8K", torch_dtype=torch.bfloat16, trust_remote_code=True).cuda()
prompt = "When was NVIDIA founded?"
outputs = model.generate(**tokenizer(prompt, return_tensors="pt", add_special_tokens=False).to(model.device))
print(tokenizer.decode(outputs[0]))
✨ 主要特性
- 混合架构:采用混合Mamba-Transformer架构,结合Mamba-2和MLP层以及少量注意力层。
- 多语言支持:支持英语、德语、西班牙语、法语、意大利语、韩语、葡萄牙语、俄语、日语和中文。
- 长上下文处理:上下文长度可达8K。
- 性能优化:专为NVIDIA GPU加速系统设计和优化,训练和推理速度更快。
📚 详细文档
模型架构
- 架构类型:混合Mamba-Transformer
- 网络架构:Nemotron-H
- 参数数量:80亿
输入
- 输入类型:文本
- 输入格式:字符串
- 输入参数:一维序列
- 其他特性:上下文长度可达8K,支持多种语言。
输出
- 输出类型:文本
- 输出格式:字符串
- 输出参数:一维序列
软件集成
- 运行时引擎:NeMo 24.12
- 支持的硬件微架构:NVIDIA H100 - 80GB、NVIDIA A100
- 操作系统:Linux
模型版本
提示格式
作为基础模型,不推荐或要求特定的提示格式。
训练、测试和评估数据集
训练与测试数据集
训练语料库包含英语和多语言文本(德语、西班牙语、法语、意大利语、韩语、葡萄牙语、俄语、日语、中文和英语)以及代码。数据来源广泛,涵盖网页、对话、文章等多种文档类型。还使用了来自Qwen的合成数据进行改进,语料库涵盖法律、数学、科学、金融等多个领域。同时包含少量问答和对齐风格的数据以提高模型准确性。
- 数据收集:混合方式(自动化、人工、合成)
- 数据标注:混合方式(自动化、人工、合成)
评估数据集
使用以下数据集评估Nemotron-H-8B-Base-8K:
-
常识理解评估
| ARC Challenge 25-shot | Hellaswag 10-shot | Winogrande 5-shot | CommonsenseQA 7-shot |
|-------------|--------------|-----------------|------------------|
| 88.74 | 83.23| 80.51 | 78.71 |
- ARC (Ai2 reasoning challenge)-Challenge:包含小学水平的多项选择科学问题,用于评估语言模型的问答能力。数据集
- Hellaswag:测试语言模型从多个选项中正确完成给定上下文的能力。数据集
- Winogrande:测试语言模型在需要常识推理的句子中选择正确选项的能力。数据集
- CommonsenseQA:一个多项选择问答数据集,需要不同类型的常识知识来预测正确答案。数据集
-
编码评估
| MBPP (sanitized) 3-shot | MBPP+ 0-shot | HumanEval 0-shot | HumanEval+ 0-shot |
|-------------|--------------|-----------------|------------------|
| 65.37 | 59.52| 58.54 | 55.49 |
- MBPP (Mostly Basic Python Programming Problems):评估生成Python编程任务解决方案的能力。数据集
- MBPP+:MBPP的扩展版本,具有额外的验证。数据集
- HumanEval:测试Python代码生成和完成能力。数据集
-
数学评估
| GSM8K 8-shot CoT | MATH 4-shot CoT | MATH-Lvl 5 4-shot CoT | MATH-500 4-shot CoT |
|--------------|------------|------------|------------|
| 87.11 | 46.52 | 22.93 | 44.43 |
- GSM8K (Grade School Math 8K):评估小学水平的数学应用题解决能力。数据集
- MATH:测试多个难度级别和多个学科(包括预代数、代数、数论、计数与概率、几何、中级代数和预微积分)的数学能力。数据集
- MATH Lvl 5:仅包含MATH数据集中最难的问题。数据集
- MATH-500:测试代数、几何和微积分等高级数学问题解决能力。数据集
-
通用评估
| MMLU-Pro 5-shot CoT | MMLU 5-shot|
|-------------------|------------------|
|44.01 |72.77 |
- MMLU Pro:评估语言理解模型在14个不同领域的具有挑战性的推理问题上的表现。数据集
- MMLU:测试包括科学、人文、数学等57个学科的知识。数据集
推理
- 推理引擎:NeMo
- 测试硬件:NVIDIA H100 - 80GB
潜在已知风险
该模型在包含有毒语言和社会偏见的数据上进行训练,这些数据最初是从互联网上爬取的。因此,模型可能会放大这些偏见并返回有毒响应,尤其是在使用有毒提示时。即使提示本身不包含任何明确的冒犯性内容,模型也可能生成不准确、遗漏关键信息或包含无关或冗余文本的答案,产生社会不可接受或不期望的文本。
模型对通过某些编码(包括Base16、十六进制/ASCII和盲文)进行的间接提示注入表现出弱点,但比其他类似模型对更常见的Base64向量注入更具弹性。
伦理考虑
NVIDIA认为可信AI是一项共同责任,并制定了相关政策和实践,以支持各种AI应用的开发。开发者在下载或使用该模型时,应与内部模型团队合作,确保该模型符合相关行业和用例的要求,并解决不可预见的产品滥用问题。
有关该模型伦理考虑的更多详细信息,请参阅负责任使用指南。
请在此报告安全漏洞或NVIDIA AI相关问题。
📄 许可证
本模型的使用受NVIDIA内部科研与开发模型许可证的约束。
模型开发者:NVIDIA
模型开发时间:2024年10月 - 2025年3月
数据新鲜度:2024年9月
预训练数据的截止日期为2024年9月。
参考资料
同系列模型