L

Llama 3 8B Instruct Gradient 4194k

由 gradientai 开发
基于Meta-Llama-3-8B-Instruct扩展的长上下文模型,通过RoPE theta参数调整实现4194K上下文长度支持
下载量 244
发布时间 : 5/4/2024
模型介绍
内容详情
替代品

模型简介

该模型是Meta-Llama-3-8B-Instruct的扩展版本,通过渐进式训练将上下文长度从8k扩展至4194K,适用于需要处理超长文本的对话场景

模型特点

超长上下文支持
通过RoPE theta参数调整和渐进式训练,将上下文长度从8k扩展至4194K
高效训练方案
采用NTK感知插值法和缩放定律设定RoPE theta最优调整计划
高性能基础设施
基于EasyContext Blockwise RingAttention库,在L40S集群上实现高效可扩展训练

模型能力

长文本生成
对话系统
指令跟随
代码生成

使用案例

企业应用
长文档处理
处理和分析超长企业文档、合同或报告
可保持超过400万token的上下文一致性
自主助手
部署驱动企业关键运营的自主AI助手
整合企业数据实现智能决策支持
研究应用
长序列建模
科学研究中的长序列数据分析和建模