N

Nemotron H 8B Base 8K

由 nvidia 开发
NVIDIA Nemotron-H-8B-Base-8K 是由 NVIDIA 开发的大型语言模型(LLM),旨在为给定文本片段生成补全内容。该模型采用混合架构,主要由 Mamba-2 和 MLP 层组成,并结合了仅四个注意力层。模型支持 8
下载量 5,437
发布时间 : 3/19/2025
模型介绍
内容详情
替代品

模型简介

该模型是一个基础语言模型,主要用于文本生成任务,支持多种语言。建议用户使用 NeMo Framework 提供的定制工具对模型进行微调,以获得在特定任务上的最佳性能。

模型特点

混合架构
结合 Mamba-2 和 MLP 层,仅使用四个注意力层,实现高效性能。
多语言支持
支持英语、德语、西班牙语、法语、意大利语、韩语、葡萄牙语、俄语、日语和中文等多种语言。
长上下文支持
支持 8K 的上下文长度,适合处理长文本任务。
高效推理
优化于 NVIDIA GPU 加速系统运行,实现更快的训练和推理速度。

模型能力

文本生成
多语言文本补全
代码生成
数学问题解决
常识推理

使用案例

研究与开发
语言模型研究
用于构建和测试大型语言模型的新方法和技术。
多语言应用开发
开发支持多语言的文本生成和补全应用。
教育
数学问题解答
用于解答小学到高级数学问题,辅助学习。
在 GSM8K 数据集上达到 87.11 的准确率。
编程辅助
代码生成
生成 Python 编程任务的解决方案。
在 MBPP 数据集上达到 65.37 的准确率。