开源NVIDIA Nemotron-H-8B-Base-8K模型，多语言文本补全，支持8K上下文长度！

Nemotron H 8B Base 8K

由 nvidia 开发

NVIDIA Nemotron-H-8B-Base-8K 是由 NVIDIA 开发的大型语言模型（LLM），旨在为给定文本片段生成补全内容。该模型采用混合架构，主要由 Mamba-2 和 MLP 层组成，并结合了仅四个注意力层。模型支持 8K 的上下文长度，涵盖英语、德语、西班牙语、法语、意大利语、韩语、葡萄牙语、俄语、日语和中文等多种语言。

大型语言模型

Transformers

支持多种语言开源协议:其他 #混合Mamba架构 #8K长文本处理 #多语言生成

下载量 5,437

发布时间 : 3/19/2025

模型简介

该模型是一个基础语言模型，主要用于文本生成任务，支持多种语言。建议用户使用 NeMo Framework 提供的定制工具对模型进行微调，以获得在特定任务上的最佳性能。

模型特点

混合架构

结合 Mamba-2 和 MLP 层，仅使用四个注意力层，实现高效性能。

多语言支持

支持英语、德语、西班牙语、法语、意大利语、韩语、葡萄牙语、俄语、日语和中文等多种语言。

长上下文支持

支持 8K 的上下文长度，适合处理长文本任务。

高效推理

优化于 NVIDIA GPU 加速系统运行，实现更快的训练和推理速度。

模型能力

文本生成

多语言文本补全

代码生成

数学问题解决

常识推理

使用案例

研究与开发

语言模型研究

用于构建和测试大型语言模型的新方法和技术。

多语言应用开发

开发支持多语言的文本生成和补全应用。

教育

数学问题解答

用于解答小学到高级数学问题，辅助学习。

在 GSM8K 数据集上达到 87.11 的准确率。

编程辅助

代码生成

生成 Python 编程任务的解决方案。

在 MBPP 数据集上达到 65.37 的准确率。

🚀 Nemotron-H-8B-Base-8K

NVIDIA的Nemotron-H-8B-Base-8K是一款大型语言模型，专为文本补全任务设计。它采用了混合模型架构，结合了Mamba-2和MLP层以及少量注意力层，支持多种语言，上下文长度可达8K。

🚀 快速开始

示例代码

import torch
from transformers import AutoTokenizer, AutoModelForCausalLM

# 加载分词器和模型
tokenizer  = AutoTokenizer.from_pretrained("nvidia/Nemotron-H-8B-Base-8K", trust_remote_code=True)
model = AutoModelForCausalLM.from_pretrained("nvidia/Nemotron-H-8B-Base-8K", torch_dtype=torch.bfloat16, trust_remote_code=True).cuda()

prompt = "When was NVIDIA founded?"

outputs = model.generate(**tokenizer(prompt, return_tensors="pt", add_special_tokens=False).to(model.device))
print(tokenizer.decode(outputs[0]))

✨ 主要特性

混合架构：采用混合Mamba-Transformer架构，结合Mamba-2和MLP层以及少量注意力层。
多语言支持：支持英语、德语、西班牙语、法语、意大利语、韩语、葡萄牙语、俄语、日语和中文。
长上下文处理：上下文长度可达8K。
性能优化：专为NVIDIA GPU加速系统设计和优化，训练和推理速度更快。

📚 详细文档

模型架构

架构类型：混合Mamba-Transformer
网络架构：Nemotron-H
参数数量：80亿

输入

输入类型：文本
输入格式：字符串
输入参数：一维序列
其他特性：上下文长度可达8K，支持多种语言。

输出

输出类型：文本
输出格式：字符串
输出参数：一维序列

软件集成

运行时引擎：NeMo 24.12
支持的硬件微架构：NVIDIA H100 - 80GB、NVIDIA A100
操作系统：Linux

模型版本

v1.0

提示格式

作为基础模型，不推荐或要求特定的提示格式。

训练、测试和评估数据集

训练与测试数据集

训练语料库包含英语和多语言文本（德语、西班牙语、法语、意大利语、韩语、葡萄牙语、俄语、日语、中文和英语）以及代码。数据来源广泛，涵盖网页、对话、文章等多种文档类型。还使用了来自Qwen的合成数据进行改进，语料库涵盖法律、数学、科学、金融等多个领域。同时包含少量问答和对齐风格的数据以提高模型准确性。

数据收集：混合方式（自动化、人工、合成）
数据标注：混合方式（自动化、人工、合成）

评估数据集

使用以下数据集评估Nemotron-H-8B-Base-8K：

常识理解评估 | ARC Challenge 25-shot | Hellaswag 10-shot | Winogrande 5-shot | CommonsenseQA 7-shot | |-------------|--------------|-----------------|------------------| | 88.74 | 83.23| 80.51 | 78.71 |
- ARC (Ai2 reasoning challenge)-Challenge：包含小学水平的多项选择科学问题，用于评估语言模型的问答能力。数据集
- Hellaswag：测试语言模型从多个选项中正确完成给定上下文的能力。数据集
- Winogrande：测试语言模型在需要常识推理的句子中选择正确选项的能力。数据集
- CommonsenseQA：一个多项选择问答数据集，需要不同类型的常识知识来预测正确答案。数据集
编码评估 | MBPP (sanitized) 3-shot | MBPP+ 0-shot | HumanEval 0-shot | HumanEval+ 0-shot | |-------------|--------------|-----------------|------------------| | 65.37 | 59.52| 58.54 | 55.49 |
- MBPP (Mostly Basic Python Programming Problems)：评估生成Python编程任务解决方案的能力。数据集
- MBPP+：MBPP的扩展版本，具有额外的验证。数据集
- HumanEval：测试Python代码生成和完成能力。数据集
数学评估 | GSM8K 8-shot CoT | MATH 4-shot CoT | MATH-Lvl 5 4-shot CoT | MATH-500 4-shot CoT | |--------------|------------|------------|------------| | 87.11 | 46.52 | 22.93 | 44.43 |
- GSM8K (Grade School Math 8K)：评估小学水平的数学应用题解决能力。数据集
- MATH：测试多个难度级别和多个学科（包括预代数、代数、数论、计数与概率、几何、中级代数和预微积分）的数学能力。数据集
- MATH Lvl 5：仅包含MATH数据集中最难的问题。数据集
- MATH-500：测试代数、几何和微积分等高级数学问题解决能力。数据集
通用评估 | MMLU-Pro 5-shot CoT | MMLU 5-shot| |-------------------|------------------| |44.01 |72.77 |
- MMLU Pro：评估语言理解模型在14个不同领域的具有挑战性的推理问题上的表现。数据集
- MMLU：测试包括科学、人文、数学等57个学科的知识。数据集