L

Llama 3 8B Instruct Gradient 4194k

由 gradientai 开发
基于Meta-Llama-3-8B-Instruct扩展的长上下文模型,通过RoPE theta参数调整实现4194K上下文长度支持
下载量 244
发布时间 : 5/4/2024

模型简介

该模型是Meta-Llama-3-8B-Instruct的扩展版本,通过渐进式训练将上下文长度从8k扩展至4194K,适用于需要处理超长文本的对话场景

模型特点

超长上下文支持
通过RoPE theta参数调整和渐进式训练,将上下文长度从8k扩展至4194K
高效训练方案
采用NTK感知插值法和缩放定律设定RoPE theta最优调整计划
高性能基础设施
基于EasyContext Blockwise RingAttention库,在L40S集群上实现高效可扩展训练

模型能力

长文本生成
对话系统
指令跟随
代码生成

使用案例

企业应用
长文档处理
处理和分析超长企业文档、合同或报告
可保持超过400万token的上下文一致性
自主助手
部署驱动企业关键运营的自主AI助手
整合企业数据实现智能决策支持
研究应用
长序列建模
科学研究中的长序列数据分析和建模
AIbase
智启未来,您的人工智能解决方案智库
简体中文