Nemotron-H-56B-Base-8K开源大语言模型 - 免费支持8K长文及多语言文本生成

首页

Nemotron H 56B Base 8K

由 nvidia 开发

Nemotron-H-56B-Base-8K是英伟达开发的大型语言模型，采用混合Mamba-Transformer架构，支持8K上下文长度和多语言文本生成。

大型语言模型

Transformers

支持多种语言开源协议:其他 #混合Mamba-Transformer架构 #8K长文本处理 #多语言文本生成

下载量 904

发布时间 : 4/8/2025

模型简介

该模型设计用于文本补全任务，支持多种语言，包括英语、德语、西班牙语等，适用于研究和开发场景。

模型特点

混合架构

结合Mamba-2和MLP层，仅包含十个注意力层，优化了计算效率。

多语言支持

支持10种语言的文本生成，包括中文、英语、日语等。

长上下文处理

支持8K的上下文长度，适合处理长文本任务。

高效推理

针对英伟达GPU优化，提供快速的训练和推理性能。

模型能力

文本生成

多语言支持

长上下文处理

代码生成

数学问题解答

使用案例

研究与开发

语言模型研究

用于探索大型语言模型的性能和改进方法。

文本补全

生成连贯的文本补全，适用于写作辅助工具。

教育

数学问题解答

解答小学到高级数学问题，支持多步推理。

GSM8K 8-shot CoT准确率93.71

编程辅助

代码生成

生成Python代码解决方案，适用于编程任务。

MBPP（净化版）3-shot准确率77.82

🚀 Nemotron-H-56B-Base-8K

NVIDIA Nemotron-H-56B-Base-8K是由NVIDIA开发的大型语言模型（LLM），旨在作为给定文本的补全模型。它采用了混合模型架构，主要由Mamba - 2和MLP层组成，仅结合了十个注意力层。该模型的上下文长度为8K，支持的语言包括英语、德语、西班牙语、法语、意大利语、韩语、葡萄牙语、俄语、日语和中文。如需了解有关模型架构、训练和评估的更多详细信息，请参阅项目页面和技术报告。

✨ 主要特性

混合架构：采用结合Mamba - 2、MLP层和少量注意力层的混合模型架构。
多语言支持：支持英语、德语、西班牙语等多种语言。
长上下文处理：具备8K的上下文长度。
可定制性：可使用NeMo Framework套件中的工具进行定制，如参数高效微调（P - tuning、Adapters、LoRA等）和模型对齐（SFT、SteerLM、RLHF等）。

📦 安装指南

文档未提及具体安装步骤，故跳过此章节。

💻 使用示例

基础用法

import torch
from transformers import AutoTokenizer, AutoModelForCausalLM

# Load the tokenizer and model
tokenizer  = AutoTokenizer.from_pretrained("nvidia/Nemotron-H-56B-Base-8K", trust_remote_code=True)
model = AutoModelForCausalLM.from_pretrained("nvidia/Nemotron-H-56B-Base-8K", torch_dtype=torch.bfloat16, trust_remote_code=True, device_map="auto")

prompt = "When was NVIDIA founded?"

outputs = model.generate(**tokenizer(prompt, return_tensors="pt", add_special_tokens=False).to(model.device))
print(tokenizer.decode(outputs[0]))

📚 详细文档

模型信息

属性	详情
模型类型	文本生成
支持语言	英语、德语、西班牙语、法语、意大利语、韩语、葡萄牙语、俄语、日语、中文
模型架构	混合Mamba - Transformer，主要由Mamba - 2和MLP层组成，结合十个注意力层
上下文长度	8K
模型参数	56B
版本	v1.0

输入输出信息

类别	详情
输入类型	文本
输入格式	字符串
输入参数	一维序列
输入相关属性	上下文长度可达8K，支持多种语言
输出类型	文本
输出格式	字符串
输出参数	一维序列

软件集成信息

类别	详情
运行时引擎	NeMo 24.12
支持的硬件微架构	NVIDIA H100 - 80GB、NVIDIA A100
操作系统	Linux

提示格式

由于这是一个基础模型，不推荐或要求特定的提示格式。

训练、测试和评估数据集

训练与测试数据集

数据组成：由英语和多语言文本（德语、西班牙语、法语、意大利语、韩语、葡萄牙语、俄语、日语、中文和英语）以及代码组成。来源涵盖网页、对话、文章等多种文档类型。还使用了来自Qwen的合成数据进行改进。语料库涵盖法律、数学、科学、金融等多个领域，还包含少量问答和对齐风格的数据以提高模型准确性。
数据收集：混合方式，包括自动、人工和合成。
数据标注：混合方式，包括自动、人工和合成。

评估数据集

数据收集：混合方式，包括人工和合成。
数据标注：混合方式，包括人工、合成和自动。

评估指标

评估类型	具体指标	得分	数据集链接
常识理解评估	ARC Challenge 25 - shot	94.97	Dataset
常识理解评估	Hellaswag 10 - shot	89.00	Dataset
常识理解评估	Winogrande 5 - shot	84.45	Dataset
常识理解评估	CommonsenseQA 7 - shot	86.73	Dataset
编码评估	MBPP (sanitized) 3 - shot	77.82	Dataset
编码评估	MBPP+ 0 - shot	67.20	Dataset
编码评估	HumanEval 0 - shot	60.37	Dataset
编码评估	HumanEval+ 0 - shot	54.27	无
数学评估	GSM8K 8 - shot CoT	93.71	Dataset
数学评估	MATH 4 - shot CoT	59.42	Dataset
数学评估	MATH - Lvl 5 4 - shot CoT	35.19	Dataset
数学评估	MATH - 500 4 - shot CoT	57.37	Dataset
通用评估	MMLU - Pro 5 - shot CoT	60.51	Dataset
通用评估	MMLU 5 - shot	84.21	Dataset

🔧 技术细节

该模型使用混合模型架构，主要由Mamba - 2和MLP层组成，仅结合了十个注意力层。这种架构设计使得模型在处理长上下文时具有较好的性能。模型的训练数据来源广泛，包括多种语言的文本和代码，并且使用了合成数据进行改进。在评估方面，使用了多个数据集从常识理解、编码、数学和通用知识等多个维度对模型进行评估。

📄 许可证

本模型的使用受NVIDIA内部科学研究与开发模型许可证的约束。

⚠️ 重要提示

该模型是基于最初从互联网抓取的包含有毒语言、不安全内容和社会偏见的数据进行训练的。因此，该模型可能会放大这些偏见并返回有毒回复，尤其是在使用有毒提示时。即使提示本身不包含任何明确的冒犯性内容，该模型也可能生成不准确的答案、遗漏关键信息或包含无关或冗余的文本，从而产生社会不可接受或不良的文本。
该模型在通过某些编码（包括Base16、Hex/ASCII和盲文）进行间接提示注入时表现出弱点，不过与其他类似模型相比，它对更常见的Base64向量注入更具弹性。

💡 使用建议

NVIDIA认为可信AI是一项共同责任，我们已经制定了政策和实践，以支持广泛的AI应用开发。当按照我们的服务条款下载或使用该模型时，开发人员应与他们的内部模型团队合作，确保该模型满足相关行业和用例的要求，并解决不可预见的产品滥用问题。如需了解有关该模型的更多详细道德考量信息，请参阅负责任使用指南。请在此报告安全漏洞或NVIDIA AI相关问题。