L

Longalpaca 70B

由 Yukang 开发
LongLoRA是一种高效微调长上下文大语言模型的技术,通过移位短注意力机制实现长上下文处理,支持8k到100k的上下文长度。
下载量 1,293
发布时间 : 10/9/2023
模型介绍
内容详情
替代品

模型简介

LongLoRA提出了一种高效的微调方案,用于扩展大语言模型的上下文处理能力,支持从7B到70B不同规模的模型。

模型特点

移位短注意力机制
创新的注意力机制设计,兼容Flash-Attention技术,推理阶段无需使用
长上下文支持
支持从8k到100k的上下文长度,覆盖多种应用场景
全系列模型
开源7B至70B全系列模型,满足不同计算资源需求
专用数据集
构建长上下文指令数据集LongAlpaca-12k,提升模型指令跟随能力

模型能力

长文本理解
长文本生成
指令跟随
问答系统

使用案例

文档处理
长文档摘要
处理长达数万token的文档并生成摘要
可有效保留长文档中的关键信息
技术文档分析
阅读和理解复杂的技术文档
能够准确回答关于文档内容的细节问题
学术研究
论文阅读与问答
阅读完整学术论文并回答相关问题
能够理解论文中的复杂概念和论证过程