L

Llama 3.1 Nemotron 8B UltraLong 4M Instruct

由 nvidia 开发
Nemotron-UltraLong-8B是专为处理超长文本序列设计的语言模型,支持最高400万标记的上下文窗口,同时在标准基准测试中保持卓越性能。
下载量 4,363
发布时间 : 3/4/2025
模型介绍
内容详情
替代品

模型简介

基于Llama-3.1架构的UltraLong-8B采用系统性训练方案,通过高效持续预训练与指令微调相结合的方式,显著提升长文本理解与指令遵循能力。

模型特点

超长上下文支持
支持最高400万标记的上下文窗口,能够处理超长文本序列。
高效训练方案
采用系统性训练方案,结合持续预训练与指令微调,提升长文本理解能力。
卓越性能
在长上下文任务和标准基准测试中均表现卓越。

模型能力

超长文本理解
指令遵循
文本生成
数学推理
代码生成

使用案例

长文本处理
长文档摘要
对超长文档进行摘要生成。
长文本问答
在超长文本中进行问答任务。
通用任务
数学推理
解决数学问题。
代码生成
生成代码片段。