L

Llama 3 1 Nemotron Ultra 253B CPT V1

由 nvidia 开发
Llama-3.1-Nemotron-Ultra-253B-CPT-v1是基于Meta Llama-3.1-405B-Instruct的大型语言模型,支持128K tokens上下文长度,经过神经架构搜索优化,在准确性和效率之间取得良好平衡
下载量 155
发布时间 : 4/8/2025
模型介绍
内容详情
替代品

模型简介

该模型是Llama-3.1-405B-Instruct的衍生版本,通过神经架构搜索和持续预训练优化,适用于英语和编程语言的文本生成任务。

模型特点

高效推理
通过神经架构搜索优化内存占用,可在单个8xH100节点上进行推理,降低运行成本。
长上下文支持
支持128K tokens的上下文长度,适合处理长文档和复杂任务。
垂直压缩优化
采用新颖的垂直压缩方法,显著改善模型延迟。
持续预训练
经过650亿tokens的知识蒸馏和880亿tokens的持续预训练,提升模型性能。

模型能力

文本生成
长文本处理
编程语言理解

使用案例

基础模型
领域适应
作为基础模型,可通过微调适应特定领域或应用场景。
研究与应用
语言理解与生成
用于自然语言处理任务,如问答、摘要和对话系统。
代码生成与理解
支持编程语言相关任务,如代码补全和解释。