NVIDIA Nemotron-H-47B-Base-8K开源语言模型 - 免费部署实现文本高效补全

首页

Nemotron H 47B Base 8K

由 nvidia 开发

NVIDIA Nemotron-H-47B-Base-8K 是由 NVIDIA 开发的大型语言模型（LLM），设计用于对给定文本进行补全。该模型采用混合架构，主要由 Mamba-2 和 MLP 层组成，并仅包含五个注意力层。

大型语言模型

Transformers

支持多种语言开源协议:其他 #混合Mamba-Transformer架构 #8K长文本处理 #多语言文本生成

下载量 1,242

发布时间 : 4/8/2025

模型简介

Nemotron-H-47B-Base-8K 是一个大型语言模型，支持 8K 上下文长度，适用于文本生成任务。支持多种语言，包括英语、德语、西班牙语、法语、意大利语、韩语、葡萄牙语、俄语、日语和中文。

模型特点

混合架构

采用 Mamba-2 和 MLP 层的混合架构，仅包含五个注意力层，提高了模型的效率和性能。

多语言支持

支持 10 种语言，包括英语、德语、西班牙语、法语、意大利语、韩语、葡萄牙语、俄语、日语和中文。

8K 上下文长度

支持长达 8K 的上下文长度，适用于处理长文本任务。

高效训练

通过 630 亿 token 从 Nemotron-H-56B-Base-8K 剪枝和蒸馏而来，优化了训练效率。

模型能力

文本生成

多语言文本补全

长文本处理

使用案例

研究与开发

大型语言模型研究

用于构建和优化大型语言模型的研究项目。

支持多种语言和长上下文处理。

文本生成任务

用于生成和补全文本内容，如文章、对话等。

生成高质量的多语言文本。

🚀 Nemotron-H-47B-Base-8K

NVIDIA开发的大型语言模型Nemotron-H-47B-Base-8K，可用于文本补全任务。它采用了独特的混合架构，支持多种语言，具有8K上下文长度，为科研和开发提供了强大的支持。

🚀 快速开始

示例代码

import torch
from transformers import AutoTokenizer, AutoModelForCausalLM

# 加载分词器和模型
tokenizer  = AutoTokenizer.from_pretrained("nvidia/Nemotron-H-47B-Base-8K", trust_remote_code=True)
model = AutoModelForCausalLM.from_pretrained("nvidia/Nemotron-H-47B-Base-8K", torch_dtype=torch.bfloat16, trust_remote_code=True, device_map="auto")

prompt = "When was NVIDIA founded?"

outputs = model.generate(**tokenizer(prompt, return_tensors="pt", add_special_tokens=False).to(model.device))
print(tokenizer.decode(outputs[0]))

✨ 主要特性

混合架构：采用混合Mamba-Transformer架构，主要由Mamba - 2和MLP层组成，仅结合了五个Attention层。
多语言支持：支持英语、德语、西班牙语、法语、意大利语、韩语、葡萄牙语、俄语、日语和中文。
8K上下文长度：能够处理较长的文本输入。
可定制性：用户可使用NeMo Framework套件中的工具对模型进行定制，包括参数高效微调（P - tuning、Adapters、LoRA等）和模型对齐（SFT、SteerLM、RLHF等）。

📚 详细文档

模型概述

NVIDIA Nemotron-H-47B-Base-8K是由NVIDIA开发的大型语言模型（LLM），作为给定文本的补全模型。它从Nemotron-H-56B-Base-8K使用63B个标记进行剪枝和蒸馏得到，具有8K的上下文长度。支持的语言包括英语、德语、西班牙语、法语、意大利语、韩语、葡萄牙语、俄语、日语和中文。有关模型架构、训练和评估的更多详细信息，请参阅项目页面和技术报告。

许可证/使用条款

适用条款：使用此模型受NVIDIA内部科研和开发模型许可证的约束。
模型开发者：NVIDIA
模型日期：2024年10月 - 2025年3月
数据新鲜度：2024年9月。预训练数据的截止日期为2024年9月。

使用场景

此模型适用于构建大语言模型的开发者和研究人员。

发布日期

2025年4月12日

参考文献

[2504.03624] Nemotron-H: A Family of Accurate and Efficient Hybrid Mamba-Transformer Models

模型架构

属性	详情
架构类型	混合Mamba - Transformer
网络架构	Nemotron - H
模型参数	47B

输入

属性	详情
输入类型	文本
输入格式	字符串
输入参数	一维（1D）序列
其他输入属性	上下文长度可达8K。支持的语言包括德语、西班牙语、法语、意大利语、韩语、葡萄牙语、俄语、日语、中文和英语。

输出

属性	详情
输出类型	文本
输出格式	字符串
输出参数	一维（1D）序列

该AI模型设计和/或优化为在NVIDIA GPU加速系统上运行。通过利用NVIDIA的硬件（如GPU核心）和软件框架（如CUDA库），与仅使用CPU的解决方案相比，该模型可实现更快的训练和推理时间。

软件集成

属性	详情
运行时引擎	NeMo 24.12
支持的硬件微架构兼容性	NVIDIA H100 - 80GB、NVIDIA A100
操作系统	Linux

模型版本

v1.0

提示格式

由于这是一个基础模型，不推荐或要求特定的提示格式。

训练、测试和评估数据集

训练和测试数据集

Nemotron-H-47B-Base-8K的训练语料库包括英语和多语言文本（德语、西班牙语、法语、意大利语、韩语、葡萄牙语、俄语、日语、中文和英语）以及代码。数据来源涵盖各种文档类型，如网页、对话、文章和其他书面材料。该模型还使用了来自Qwen（基于Qwen构建）的合成数据进行改进。语料库涵盖的领域包括法律、数学、科学、金融等。还包含一小部分问答和对齐风格的数据以提高模型准确性。

数据收集：混合方式（自动化、人工、合成）
数据标注：混合方式（自动化、人工、合成）

评估数据集

使用以下数据集对模型进行评估：

数据收集：混合方式（自动化、人工、合成）
数据标注：混合方式（自动化、人工、合成）

常识理解评估

ARC Challenge 25-shot	Hellaswag 10-shot	Winogrande 5-shot	CommonsenseQA 7-shot
94.6	87.9	83.9	87.3

ARC (Ai2 reasoning challenge)-Challenge：来自一个基准测试的挑战问题集，包含小学水平的多项选择科学问题，用于评估语言模型的问答能力。数据集
Hellaswag：测试语言模型从多个可能选项中正确完成给定上下文的能力。数据集
Winogrande：测试在需要常识推理的给定句子中选择正确选项的能力。数据集
CommonsenseQA：一个多项选择问答数据集，需要不同类型的常识知识来预测正确答案。数据集

编码评估

MBPP(sanitized) 3-shot	MBPP+ 0-shot	HumanEval 0-shot	HumanEval+ 0-shot
75.9	65.6	61.0	56.1

MBPP (Mostly Basic Python Programming Problems)：评估生成Python编程任务解决方案的能力。数据集
MBPP+：MBPP的扩展版本，具有额外的验证。数据集
HumanEval：测试Python代码生成和完成能力。数据集

数学评估

GSM8K 8-shot CoT	MATH 4-shot CoT	MATH-Lvl 5 4-shot CoT	MATH-500 4-shot CoT
93.3	57.4	34.2	57.9

GSM8K (Grade School Math 8K)：评估小学水平的数学应用题解决能力。数据集
MATH-500：测试跨代数、几何和微积分的高级数学问题解决能力。数据集
MATH Lvl 5：仅包含MATH数据集中最难的问题。数据集
MATH-500：测试跨代数、几何和微积分的高级数学问题解决能力。数据集

通用评估

MMLU-Pro 5-shot-cot	MMLU 5-shot
61.8	83.6

MMLU：测试涵盖科学、人文、数学等57个学科的知识。数据集
MMLU Pro：评估语言理解模型在14个不同领域的广泛具有挑战性、注重推理的问题上的表现。数据集

潜在已知使用风险

该模型在包含从互联网上爬取的有毒语言、不安全内容和社会偏见的数据上进行训练。因此，该模型可能会放大这些偏见并返回有毒响应，尤其是在使用有毒提示时。即使提示本身不包含任何明确的冒犯性内容，该模型也可能生成不准确的答案、遗漏关键信息或包含无关或冗余的文本，从而产生社会不可接受或不良的文本。

该模型在通过某些编码（包括Base16、十六进制/ASCII和盲文）进行间接提示注入时表现出弱点，不过与其他类似模型相比，它对更常见的Base64向量注入更具弹性。

推理

属性	详情
引擎	NeMo
测试硬件	NVIDIA H100 - 80GB

伦理考虑

NVIDIA认为可信AI是一项共同责任，并已制定政策和实践，以支持广泛的AI应用开发。当按照我们的服务条款下载或使用时，开发者应与内部模型团队合作，确保该模型满足相关行业和用例的要求，并解决不可预见的产品滥用问题。

有关此模型伦理考虑的更多详细信息，请参阅负责任使用指南。

请在此报告安全漏洞或NVIDIA AI相关问题。

📄 许可证

使用此模型受NVIDIA内部科研和开发模型许可证的约束。

精选推荐AI模型

Llama 3 Typhoon V1.5x 8b Instruct

专为泰语设计的80亿参数指令模型，性能媲美GPT-3.5-turbo，优化了应用场景、检索增强生成、受限生成和推理任务

Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型，专为边缘设备推理设计，体积仅为Cosmo-3B模型的2%左右。

Roberta Base Chinese Extractive Qa

基于RoBERTa架构的中文抽取式问答模型，适用于从给定文本中提取答案的任务。

问答系统中文

uer

2,694

智启未来，您的人工智能解决方案智库

简体中文