L

Llama 3 8B Instruct 262k

由 gradientai 开发
基于Meta-Llama-3-8B-Instruct扩展的长上下文模型,支持262k tokens上下文长度
下载量 27.90k
发布时间 : 4/25/2024
模型介绍
内容详情
替代品

模型简介

该模型通过RoPE theta优化技术将Llama-3 8B的上下文长度从8k扩展至262k,适用于长文档处理和多轮对话场景

模型特点

超长上下文支持
通过RoPE theta优化技术扩展至262k tokens上下文长度
高效训练
采用渐进式训练方法,仅用1.01亿tokens完成扩展
优化对话能力
基于UltraChat数据集进行微调,强化助手式对话表现

模型能力

长文本生成
多轮对话
代码生成
知识问答

使用案例

企业应用
长文档分析
处理超长合同、技术文档等
可准确提取262k tokens范围内的关键信息
自主助手
部署企业级对话助手
支持超长对话历史保持上下文一致性
研究应用
长序列建模
用于需要长上下文的研究场景