N

Nemotron H 56B Base 8K

由 nvidia 开发
Nemotron-H-56B-Base-8K是英伟达开发的大型语言模型,采用混合Mamba-Transformer架构,支持8K上下文长度和多语言文本生成。
下载量 904
发布时间 : 4/8/2025
模型介绍
内容详情
替代品

模型简介

该模型设计用于文本补全任务,支持多种语言,包括英语、德语、西班牙语等,适用于研究和开发场景。

模型特点

混合架构
结合Mamba-2和MLP层,仅包含十个注意力层,优化了计算效率。
多语言支持
支持10种语言的文本生成,包括中文、英语、日语等。
长上下文处理
支持8K的上下文长度,适合处理长文本任务。
高效推理
针对英伟达GPU优化,提供快速的训练和推理性能。

模型能力

文本生成
多语言支持
长上下文处理
代码生成
数学问题解答

使用案例

研究与开发
语言模型研究
用于探索大型语言模型的性能和改进方法。
文本补全
生成连贯的文本补全,适用于写作辅助工具。
教育
数学问题解答
解答小学到高级数学问题,支持多步推理。
GSM8K 8-shot CoT准确率93.71
编程辅助
代码生成
生成Python代码解决方案,适用于编程任务。
MBPP(净化版)3-shot准确率77.82